論文の概要: Instruction Following by Boosting Attention of Large Language Models
- arxiv url: http://arxiv.org/abs/2506.13734v1
- Date: Mon, 16 Jun 2025 17:42:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:49.190728
- Title: Instruction Following by Boosting Attention of Large Language Models
- Title(参考訳): 大規模言語モデルの注意力向上による指示の追従
- Authors: Vitoria Guardieiro, Adam Stein, Avishree Khare, Eric Wong,
- Abstract要約: 潜水ステアリングは 内部の活性化を 誘導する 軽量な技術だ
InstABoostは、世代間のモデルの注意を変えることで、インストラクションの強度を高める。
InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
- 参考スコア(独自算出の注目度): 11.739148611340964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controlling the generation of large language models (LLMs) remains a central challenge to ensure their safe and reliable deployment. While prompt engineering and finetuning are common approaches, recent work has explored latent steering, a lightweight technique that alters LLM internal activations to guide generation. However, subsequent studies revealed latent steering's effectiveness to be limited, often underperforming simple instruction prompting. To address this limitation, we first establish a benchmark across diverse behaviors for standardized evaluation of steering techniques. Building on insights from this benchmark, we introduce Instruction Attention Boosting (InstABoost), a latent steering method that boosts the strength of instruction prompting by altering the model's attention during generation. InstABoost combines the strengths of existing approaches and is theoretically supported by prior work that suggests that in-context rule following in transformer-based models can be controlled by manipulating attention on instructions. Empirically, InstABoost demonstrates superior control success compared to both traditional prompting and latent steering.
- Abstract(参考訳): 大きな言語モデル(LLM)の生成を制御することは、安全で信頼性の高いデプロイメントを保証する上で、依然として中心的な課題である。
迅速なエンジニアリングと微調整は一般的なアプローチであるが、最近の研究は、LCM内部の活性化をガイド生成に変化させる軽量な技術である潜在ステアリングを探求している。
しかし、その後の研究では、潜伏ステアリングの有効性は限定的であり、多くの場合、単純な指示のプロンプトが不十分であることが判明した。
この制限に対処するために、我々はまず、ステアリング技術の評価を標準化するために、様々な行動にまたがるベンチマークを確立する。
InstABoost(Instruction Attention Boosting, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost, InstABoost)は
InstABoostは既存のアプローチの強みを組み合わせており、トランスフォーマーベースのモデルで従うコンテキスト内ルールは命令に対する注意を操作することで制御可能であることを示唆する先行研究によって理論的に支持されている。
実証的には、InstABoostは従来のプロンプトと潜伏したステアリングよりも優れたコントロール成功を示している。
関連論文リスト
- Diffusion Guidance Is a Controllable Policy Improvement Operator [98.11511661904618]
CFGRLは教師付き学習の単純さで訓練されているが、データ内のポリシーをさらに改善することができる。
オフラインのRLタスクでは、信頼性の高いトレンドが観察されます -- ガイダンスの重み付けの増加によって、パフォーマンスが向上します。
論文 参考訳(メタデータ) (2025-05-29T14:06:50Z) - Guiding Giants: Lightweight Controllers for Weighted Activation Steering in LLMs [3.2361985831403404]
アクティベーションステアリングは、推論時間制御の代替を提供する。
推論中に軽量でトレーニング可能なコントローラネットワークを組み込んだ新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-22T01:48:38Z) - Interpretable Steering of Large Language Models with Feature Guided Activation Additions [4.496738719682736]
本稿では,新しいアクティベーションステアリング法であるFeature Guided Activation Additions (FGAA)を紹介する。
スパースオートエンコーダ(SAE)の潜在空間で操作することにより、FGAAは正確なステアリングベクトルを構成する。
Gemma-2-2B と Gemma-2-9B モデルの評価は、FGAA が既存のステアリング法より優れていることを示す。
論文 参考訳(メタデータ) (2025-01-17T02:55:23Z) - Improving Instruction-Following in Language Models through Activation Steering [58.876600545898675]
命令固有ベクトル表現を言語モデルから導出し,それに従ってモデルをステアリングする。
提案手法は,出力形式や長さ,単語の包摂といった制約に対するモデル適合性をいかに向上させるかを示す。
本研究は,アクティベーションステアリングが言語生成におけるきめ細かい制御に実用的でスケーラブルなアプローチを提供することを示す。
論文 参考訳(メタデータ) (2024-10-15T08:38:20Z) - Controllable Navigation Instruction Generation with Chain of Thought Prompting [74.34604350917273]
本稿では,C-インストラクタを提案する。C-インストラクタは,スタイル制御およびコンテンツ制御可能な命令生成のために,チェーン・オブ・シンクタスタイルのプロンプトを利用する。
C-インストラクタは生成した命令をより追従しやすくし、ランドマークオブジェクトの操作に対する制御性を高める。
論文 参考訳(メタデータ) (2024-07-10T07:37:20Z) - Responsive Safety in Reinforcement Learning by PID Lagrangian Methods [74.49173841304474]
ラグランジアン法は振動とオーバーシュートを示し、安全強化学習に適用すると制約違反行動を引き起こす。
制約関数の微分を利用する新しいラグランジュ乗算器更新法を提案する。
我々はPIDラグランジアン法を深部RLに適用し、安全RLベンチマークであるSafety Gymにおける新しい技術状態を設定する。
論文 参考訳(メタデータ) (2020-07-08T08:43:14Z) - Optimal PID and Antiwindup Control Design as a Reinforcement Learning
Problem [3.131740922192114]
DRL制御法の解釈可能性に着目した。
特に、線形固定構造コントローラをアクター・クリティカル・フレームワークに埋め込まれた浅層ニューラルネットワークとみなす。
論文 参考訳(メタデータ) (2020-05-10T01:05:26Z) - Model-Reference Reinforcement Learning Control of Autonomous Surface
Vehicles with Uncertainties [1.7033108359337459]
提案した制御は,従来の制御手法と深層強化学習を組み合わせたものである。
強化学習により,不確かさのモデリングを補うための制御法を直接学習することができる。
従来の深層強化学習法と比較して,提案した学習に基づく制御は安定性を保証し,サンプル効率を向上することができる。
論文 参考訳(メタデータ) (2020-03-30T22:02:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。