論文の概要: Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models
- arxiv url: http://arxiv.org/abs/2509.22739v1
- Date: Thu, 25 Sep 2025 23:25:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.840544
- Title: Painless Activation Steering: An Automated, Lightweight Approach for Post-Training Large Language Models
- Title(参考訳): 痛みのないアクティベーションステアリング - トレーニング後の大規模言語モデルに対する自動化された軽量アプローチ
- Authors: Sasha Cui, Zhongren Chen,
- Abstract要約: アクティベーションステアリング(AS)は、既存の2つのポストトレーニング方法に代わる、安価で、高速で、制御可能な代替手段を約束する。
完全に自動化された手法のファミリーであるPainless Activation Steering (PAS)を紹介する。
PASは行動タスクのパフォーマンスを確実に向上させるが、インテリジェンス指向のタスクには向いていない。
- 参考スコア(独自算出の注目度): 0.3966526231056968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are typically post-trained for desired capabilities and behaviors via weight-based or prompt-based steering, but the former is time-consuming and expensive, and the latter is not precisely controllable and often requires manual trial-and-error. While activation steering (AS) promises a cheap, fast, and controllable alternative to the two existing post-training methods, current AS techniques require hand-crafted prompt pairs or labor-intensive feature annotation, making them more inconvenient than the plug-and-play methods such as Reinforcement Learning (RL) and Supervised Fine-Tuning (SFT). We introduce Painless Activation Steering (PAS), a family of fully automated methods that make AS readily usable with any given labeled dataset, with no need for prompt construction, feature labeling, or human intervention. We evaluate PAS on three open-weight models (Llama3.1-8B-Instruct, DeepSeek-R1-Distill-8B, and Nous-Hermes-2) and 18 tasks; we find that PAS reliably improves performance for behavior tasks, but not for intelligence-oriented tasks. The introspective variant (iPAS) delivers the strongest causal steering effects (10.1% on Bias, 5.2% on Morality, and 34.8% on Alignment). We also show PAS delivers additional gains on top of In-Context Learning (ICL) and SFT. PAS constructs a fast, lightweight activation vector that can be cheaply trained, easily stored, and activated at will. Our results provide a characterization of where AS helps, where it fails, and how to deploy it as a practical, automated LM post-training option.
- Abstract(参考訳): 言語モデル(LM)は通常、ウェイトベースまたはプロンプトベースのステアリングを通じて、望ましい能力や振る舞いのためにポストトレーニングされるが、前者は時間と費用がかかり、後者は正確に制御可能ではなく、しばしば手動による試行錯誤を必要とする。
アクティベーションステアリング(AS)は、既存の2つのポストトレーニング手法に代わる安価で高速で制御可能な代替手段を約束する一方で、現在のAS技術は手作りのプロンプトペアや労働集約的な特徴アノテーションを必要としており、強化学習(RL)や監視ファインチューニング(SFT)のようなプラグアンドプレイ方式よりも不便である。
私たちはPainless Activation Steering(PAS)を紹介します。これは、ASを任意のラベル付きデータセットで簡単に使用できるようにする、完全に自動化されたメソッドのファミリーです。
我々は,3つのオープンウェイトモデル(Llama3.1-8B-Instruct,DeepSeek-R1-Distill-8B,Nous-Hermes-2)と18のタスクに対してPASを評価する。
内省的変種(iPAS)は、最も強力な因果的操舵効果(バイアス10.1%、モラリティ5.2%、アライメント34.8%)をもたらす。
また、PASは、ICL(In-Context Learning)とSFT(Sft)の上にさらなる利益をもたらすことを示す。
PASは高速で軽量なアクティベーションベクターを構築し、安価にトレーニングし、簡単に保存し、自由にアクティベートすることができる。
この結果から,ASがどの場所に役立つか,どこが失敗しているか,そして,実際に自動化されたLMポストトレーニングオプションとしてどのようにデプロイするか,といった特徴が得られた。
関連論文リスト
- CorrSteer: Steering Improves Task Performance and Safety in LLMs through Correlation-based Sparse Autoencoder Feature Selection [0.0]
提案するCorrSteerは,サンプルの正しさとSAEのアクティベーションを推論時に生成したトークンから関連付けて特徴を選択する。
我々の研究は、言語モデルアプリケーション間での自動SAEステアリングのための効果的でスケーラブルなアプローチとして相関ベースの選択を確立する。
論文 参考訳(メタデータ) (2025-08-18T00:01:42Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Effectively Steer LLM To Follow Preference via Building Confident Directions [39.40603123075168]
本稿では,モデルステアリング手法の理解と定量化のための理論的枠組みを提案する。
本フレームワークに着想を得て,LDMの活性化を制御できる確実な方向ステアリング法(CONFST)を提案する。
このアプローチは、一般的な双方向モデルステアリング方法に対して、3つの大きな利点を提供します。
論文 参考訳(メタデータ) (2025-03-04T20:32:27Z) - TL-Training: A Task-Feature-Based Framework for Training Large Language Models in Tool Use [72.32614703504122]
大規模言語モデル(LLM)は、環境と対話するツールを活用することで、目覚ましい進歩を遂げる。
大規模なデータセットに依存する標準教師付き微調整アプローチでは、ツール使用時のタスク固有の特性を見落としていることが多い。
本稿では,最適下トレーニングデータの効果を緩和するタスク機能ベースのフレームワークであるTL-Trainingを提案する。
論文 参考訳(メタデータ) (2024-12-20T02:21:36Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - InferAligner: Inference-Time Alignment for Harmlessness through
Cross-Model Guidance [56.184255657175335]
我々は,無害アライメントのためのクロスモデルガイダンスを利用する新しい推論時間アライメント手法であるtextbfInferAligner を開発した。
実験結果から,本手法はファイナンス,医学,数学の分野特化モデルに極めて効果的に適用可能であることが示された。
これは有害な命令とジェイルブレイク攻撃の両方のアタック成功率(ASR)を著しく低下させ、下流タスクではほとんど変化のないパフォーマンスを維持している。
論文 参考訳(メタデータ) (2024-01-20T10:41:03Z) - Steering Language Models With Activation Engineering [40.04138190785384]
アクティベーションエンジニアリングを導入し、モデル出力を制御(またはステア)するためにアクティベーションの推論時間を変更する。
LLaMA-3 や OPT などのモデルを用いて, 負対正の感情変化と解毒を行う。
ActAddは、ターゲット外のタスクのパフォーマンスを維持しながら、高レベルの出力特性(トピックや感情など)を推論時間で制御する。
論文 参考訳(メタデータ) (2023-08-20T12:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。