論文の概要: Steering Latent Traits, Not Learned Facts: An Empirical Study of Activation Control Limits
- arxiv url: http://arxiv.org/abs/2511.18284v1
- Date: Sun, 23 Nov 2025 04:28:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.745668
- Title: Steering Latent Traits, Not Learned Facts: An Empirical Study of Activation Control Limits
- Title(参考訳): 学習条件によらない潜在特性:活性化制御限界の実証的研究
- Authors: Tetiana Bas, Krystian Novak,
- Abstract要約: 大規模言語モデル(LLM)は、多様なアプリケーションにまたがる安全かつ効果的なデプロイメントのために、正確な振る舞い制御を必要とする。
本研究では, ステアリングの有効性が, 異なる行動種によってどのように異なるのか, 対象行動の性質がステアリングの成功を予測することができるのか, という課題に焦点をあてる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) require precise behavior control for safe and effective deployment across diverse applications. Activation steering offers a promising approach for LLMs' behavioral control. We focus on the question of how steering effectiveness varies across different behavior types and whether the nature of target behaviors can predict steering success. We address this through empirical analysis of activation steering across 50 behaviors that span persona archetypes, personality traits, misalignment behaviors, style cues, and impersonation of public figures. We present a set of comprehensive experiments on coefficient optimization, vector properties, and data requirements to provide comprehensive guidance for the implementation of activation steering. Our analysis demonstrates that steering effectiveness varies significantly by behavior type, with different behavioral categories exhibiting distinct response patterns to intervention strength. We find that trait expression follows an inverted-U curve with a steering coefficient strength. We also show that vector separation metrics do not predict steering success, but larger training datasets enable more aggressive steering. These findings provide empirically grounded guidance for implementing activation steering and demonstrate that steering effectiveness is heavily influenced by behavior type.
- Abstract(参考訳): 大規模言語モデル(LLM)は、多様なアプリケーションにまたがる安全かつ効果的なデプロイメントのために、正確な振る舞い制御を必要とする。
活性化ステアリングはLLMの行動制御に有望なアプローチを提供する。
本研究では, ステアリングの有効性が, 異なる行動種によってどのように異なるのか, 対象行動の性質がステアリングの成功を予測することができるのか, という課題に焦点をあてる。
本研究は,50の行動にまたがるアクティベーション・ステアリングを実証的に分析し,人格的特徴,違和感行動,スタイル・キュー,人物の身振りなどについて考察する。
本稿では, アクティベーションステアリングの実装に関する総合的なガイダンスを提供するために, 係数最適化, ベクトル特性, およびデータ要求に関する総合的な実験を行う。
本分析は,介入強度に対する異なる反応パターンを示す行動カテゴリーにおいて,操舵の有効性が行動タイプによって大きく異なることを示す。
特性表現は, 操舵係数の強い逆U曲線に従う。
また、ベクトル分離メトリクスはステアリングの成功を予測しないが、より大きなトレーニングデータセットはより積極的なステアリングを可能にする。
これらの知見は,アクティベーションステアリングの実装に関する実証的根拠を与え,ステアリングの有効性が行動タイプに大きく影響していることを示す。
関連論文リスト
- KV Cache Steering for Controlling Frozen LLMs [80.50365534625438]
キャッシュステアリングは、言語モデルの暗黙的なステアリングのための軽量な方法である。
キャッシュステアリングを応用して、小さな言語モデルにおける連鎖推論を誘導する。
論文 参考訳(メタデータ) (2025-07-11T17:59:36Z) - Understanding (Un)Reliability of Steering Vectors in Language Models [21.33093425619501]
本稿では,アクティベーションの違いが操舵信頼性に及ぼす影響について検討する。
実験で使用した7つのプロンプト型はすべて、正の操舵効果を生じるが、試料間で高いばらつきを示し、しばしば所望のものと逆の効果を与える。
論文 参考訳(メタデータ) (2025-05-28T17:53:31Z) - Beyond Prompt Engineering: Robust Behavior Control in LLMs via Steering Target Atoms [71.85633762642125]
モデルにおける膨大な数のパラメータは、しばしば高度に絡み合った内部表現をもたらす。
最近の研究は、スパースオートエンコーダ(SAE)を用いて、ステアリングのための高次元空間における知識を歪めている。
本研究では,非絡み合った知識コンポーネントを分離・操作し,安全性を高める手法であるステアリングターゲット原子(STA)を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:59:18Z) - Control-ITRA: Controlling the Behavior of a Driving Model [14.31198056147624]
エージェントの動作に影響を与える制御ITRAと呼ばれる手法を,ウェイポイントの割り当てと目標速度の変調によって導入する。
本手法は, 可制御性, 無屈折性トラジェクトリを生成できると同時に, 視界と見えない位置の両方でリアリズムを保ち得ることを示す。
論文 参考訳(メタデータ) (2025-01-17T03:35:11Z) - Analyzing the Generalization and Reliability of Steering Vectors [8.253773195379166]
ステアリングベクトルは分布内および分布外の両方にかなりの制限があることを示す。
分散において、ステアビリティは異なる入力間で高度に変動する。
アウト・オブ・ディストリビューション(out-of-distribution)、ステアリングベクトル(steering vector)はよく一般化されるが、いくつかの概念はプロンプトの合理的な変化に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-17T08:32:03Z) - Personalized Steering of Large Language Models: Versatile Steering Vectors Through Bi-directional Preference Optimization [34.05163996072159]
人選好データのアクティベーションから「ステアリングベクトル」を抽出する。
この研究は、双方向の選好最適化によってより効果的なステアリングベクトルを生み出すことができる革新的なアプローチを提案する。
提案手法は, ステアリングベクトルが人間の嗜好データペアの生成確率に直接影響を与えるように設計されている。
論文 参考訳(メタデータ) (2024-05-28T05:10:40Z) - ACE : Off-Policy Actor-Critic with Causality-Aware Entropy Regularization [52.5587113539404]
因果関係を考慮したエントロピー(entropy)という用語を導入し,効率的な探索を行うための潜在的影響の高いアクションを効果的に識別し,優先順位付けする。
提案アルゴリズムであるACE:Off-policy Actor-critic with Causality-aware Entropy regularizationは,29種類の連続制御タスクに対して,大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2024-02-22T13:22:06Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。