論文の概要: Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
- arxiv url: http://arxiv.org/abs/2603.06745v1
- Date: Fri, 06 Mar 2026 09:49:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:13.01665
- Title: Enhancing Instruction Following of LLMs via Activation Steering with Dynamic Rejection
- Title(参考訳): ダイナミックリジェクションを用いたアクティベーションステアリングによるLCMのインストラクション追従強化
- Authors: Minjae Kang, Jaehyung Kim,
- Abstract要約: 大規模言語モデル(LLM)は複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術はモデル内部を操作することを目的としているが、オーバーステアリングの危険性がある。
余分なデータセットを使わずにKVキャッシュをスケーリングすることで、操舵強度を動的に調節する新しい操舵法であるDIRECTERを導入する。
- 参考スコア(独自算出の注目度): 8.819278296219071
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs), despite advances in instruction tuning, often fail to follow complex user instructions. Activation steering techniques aim to mitigate this by manipulating model internals, but have a potential risk of oversteering, where excessive emphasis on the instruction degrades task accuracy and overall text quality. To address this, we introduce DIRECTER (Dynamic rejection steering), a novel steering method that dynamically modulates steering strength by scaling the KV cache without extra dataset. DIRECTER couples steering with a plausibility-guided decoding loop, which adaptively adjusts steering strength at each step by comparing the steered output distribution to the original. If the steered output is deemed implausible, steering strength is progressively weakened. This strength modulation is guided by a lightweight, one-time attention sensitivity analysis that ranks layers by their influence on model representations. Extensive evaluations show that DIRECTER significantly enhances instruction-following capabilities across diverse benchmarks, improving accuracy by up to 6.5% over baselines without the common trade-offs in generation quality or task fidelity. The proposed dynamic, plausibility-guided control during activation steering further demonstrates its potential as a general mechanism for mitigating oversteering that is compatible with existing baselines.
- Abstract(参考訳): 大きな言語モデル(LLM)は、命令チューニングの進歩にもかかわらず、複雑なユーザ命令に従わないことが多い。
アクティベーションステアリング技術は、モデル内部を操作することでこれを緩和することを目的としているが、オーバーステアリングの危険性があり、命令の過度な強調がタスク精度と全体的なテキスト品質を低下させる。
そこで本研究では,新たなステアリング手法であるDIRECTER(Dynamic rejection steering)を導入し,KVキャッシュを余分なデータセットなしでスケーリングすることで,操舵強度を動的に調整する。
DIRECTERは、ステアリングを可塑性誘導復号ループで結合し、ステアリング出力分布と元の出力分布とを比較して各ステップにおけるステアリング強度を適応的に調整する。
ステアリング出力が耐え難いと判断された場合、ステアリング強度は徐々に弱まる。
この強度変調は、モデル表現への影響によって層をランク付けする軽量かつ一時期の注意感度分析によって導かれる。
大規模な評価では、DIRECTERは様々なベンチマークで命令追従能力を大幅に向上し、生成品質やタスク忠実性に共通するトレードオフを伴わずに、ベースライン上で最大6.5%の精度向上を実現している。
活性化ステアリング中の動的、可塑性誘導制御は、既存のベースラインと互換性のあるオーバーステアリングを緩和するための一般的なメカニズムとしての可能性を示す。
関連論文リスト
- ODESteer: A Unified ODE-Based Steering Framework for LLM Alignment [49.68063561145927]
活性化ステアリングのための統一常微分方程式(ODE)に基づく理論的枠組みを提案する。
本稿では,バリア関数によって誘導されるODEベースのステアリングの一種であるODESteerを紹介する。
最先端のアクティベーションステアリング手法と比較すると、ODESteerは一貫した経験的改善を実現している。
論文 参考訳(メタデータ) (2026-02-19T17:13:44Z) - AMPS: Adaptive Modality Preference Steering via Functional Entropy [66.69992693275061]
本稿では,各モータリティの情報提供量を定量化し,ステアリングに対するサンプル固有の感受性を明らかにするインスタンス認識診断指標を提案する。
実験結果から, インスタンス認識のステアリングは, 従来のステアリングよりもモダリティの嗜好の調整に優れていたことが示唆された。
論文 参考訳(メタデータ) (2026-02-13T02:29:06Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering [62.63376387138257]
本稿では,アクティベーション空間における大規模言語モデル(LLM)推論を適応的に制御するプラグイン・アンド・プレイ介入フレームワークを提案する。
RISERは再利用可能な推論ベクトルのライブラリを構築し、軽量ルータを使用して各入力に対して動的に構成する。
ルーターは、タスクレベルの報酬の下で強化学習を通じて最適化され、緊急かつ構成的な方法で潜在する認知的プリミティブを活性化する。
論文 参考訳(メタデータ) (2026-01-14T08:04:33Z) - Dynamically Scaled Activation Steering [3.177576903071419]
動的にスケールされたアクティベーションステアリング(DSAS)を導入します。これはメソッドに依存しないステアリングフレームワークで、ステアリングの仕方を分離します。
DSASは、層と入力間の既存の操舵変換の強度を適応的に調節し、望ましくない振る舞いが検出された場合にのみ強く介入する。
論文 参考訳(メタデータ) (2025-12-03T10:50:15Z) - In-Distribution Steering: Balancing Control and Coherence in Language Model Generation [0.0815557531820863]
In-Distribution Steering (IDS) は,表現空間における入力データ分布に基づいてステアリング強度を適応させる新しい手法である。
IDSは、崩壊することなくコヒーレントテキストを生成しながら、分類タスクに対して高い精度を達成し、実世界のアプリケーションに特に適している。
論文 参考訳(メタデータ) (2025-10-15T08:31:37Z) - Activation Steering with a Feedback Controller [4.609594868699996]
Proportional-Integral-Derivative (PID) Steeringは、大きな言語モデルにおけるアクティベーションステアリングに完全なPIDコントローラを利用する、原則化されたフレームワークである。
PIDステアリングは既存のアプローチを一貫して上回り、より堅牢で信頼性の高い行動制御を実現する。
論文 参考訳(メタデータ) (2025-10-05T18:05:28Z) - KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - STU-PID: Steering Token Usage via PID Controller for Efficient Large Language Model Reasoning [0.0]
拡張チェーン・オブ・シンクレット(CoT)推論を用いた大規模言語モデルは、しばしば過度に考え抜かれた現象に悩まされる。
推論中の操舵強度を動的に活性化するPIDコントローラを用いた新しいトレーニングフリー手法STUPIDを提案する。
提案手法では,冗長推論パターンを検出するチャンクレベル分類器と,予測冗長性確率に基づいて操舵強度を適応的に調整するPID制御機構を組み合わせる。
論文 参考訳(メタデータ) (2025-06-23T16:47:19Z) - Instruction Following by Boosting Attention of Large Language Models [11.739148611340964]
潜水ステアリングは 内部の活性化を 誘導する 軽量な技術だ
InstABoostは、世代間のモデルの注意を変えることで、インストラクションの強度を高める。
InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
論文 参考訳(メタデータ) (2025-06-16T17:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。