論文の概要: Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering
- arxiv url: http://arxiv.org/abs/2511.00617v1
- Date: Sat, 01 Nov 2025 16:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.864897
- Title: Belief Dynamics Reveal the Dual Nature of In-Context Learning and Activation Steering
- Title(参考訳): インテクスト学習とアクティベーションステアリングの2つの性質を信じるダイナミクス
- Authors: Eric Bigelow, Daniel Wurgaft, YingQiao Wang, Noah Goodman, Tomer Ullman, Hidenori Tanaka, Ekdeep Singh Lubana,
- Abstract要約: 大規模言語モデル(LLM)は、推論時にプロンプト(コンテキスト内学習)と内部アクティベーション(アクティベーションステアリング)を通じて制御できる。
この研究は、LCM行動の即時およびアクティベーションに基づく制御の統一的な説明と、これらの介入の効果を実証的に予測するための方法論を提供する。
- 参考スコア(独自算出の注目度): 22.666436755894328
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) can be controlled at inference time through prompts (in-context learning) and internal activations (activation steering). Different accounts have been proposed to explain these methods, yet their common goal of controlling model behavior raises the question of whether these seemingly disparate methodologies can be seen as specific instances of a broader framework. Motivated by this, we develop a unifying, predictive account of LLM control from a Bayesian perspective. Specifically, we posit that both context- and activation-based interventions impact model behavior by altering its belief in latent concepts: steering operates by changing concept priors, while in-context learning leads to an accumulation of evidence. This results in a closed-form Bayesian model that is highly predictive of LLM behavior across context- and activation-based interventions in a set of domains inspired by prior work on many-shot in-context learning. This model helps us explain prior empirical phenomena - e.g., sigmoidal learning curves as in-context evidence accumulates - while predicting novel ones - e.g., additivity of both interventions in log-belief space, which results in distinct phases such that sudden and dramatic behavioral shifts can be induced by slightly changing intervention controls. Taken together, this work offers a unified account of prompt-based and activation-based control of LLM behavior, and a methodology for empirically predicting the effects of these interventions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、推論時にプロンプト(コンテキスト内学習)と内部アクティベーション(アクティベーションステアリング)を通じて制御できる。
これらの手法を説明するために異なる説明が提案されているが、モデル行動を制御するという共通のゴールは、これらの異なるように見える方法論がより広範なフレームワークの特定の例と見なせるかどうかという疑問を提起している。
このことから,ベイズの視点からLLM制御の統一的・予測的評価法を開発した。
具体的には、文脈に基づく介入とアクティベーションに基づく介入の両方が、潜在概念に対する信念を変えることによってモデル行動に影響を与えると仮定する。
この結果、多くのショットインコンテキスト学習における先行研究に触発された一連のドメインにおける文脈およびアクティベーションに基づく介入のLLM挙動を高い予測性を持つ閉形式ベイズモデルが得られる。
このモデルは、経験的現象、例えば、文脈内証拠が蓄積するシグモダル学習曲線、新しい現象を予測している間、例えば、ログビリーフ空間における両方の介入の付加性、すなわち、突然の行動シフトと劇的な行動シフトが、わずかに変化した介入制御によって引き起こされるという、異なるフェーズを導くのに役立ちます。
この研究は、LLM行動の即時およびアクティベーションに基づく制御の統一的な説明と、これらの介入の効果を実証的に予測するための方法論を提供する。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Herd Behavior: Investigating Peer Influence in LLM-based Multi-Agent Systems [7.140644659869317]
大規模言語モデル(LLM)に基づくマルチエージェントシステムにおけるピアの影響のダイナミクスについて検討する。
自己自信と他者に対する信頼感のギャップは,エージェントが適合する可能性に大きな影響を及ぼすことを示す。
群集行動の強さを調節する上で,ピア情報提示形式が重要な役割を担っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T12:12:56Z) - HybridVLA: Collaborative Diffusion and Autoregression in a Unified Vision-Language-Action Model [54.64088247291416]
操作ポリシー設計の基本的な目的は、ロボットに人間の指示を理解し、シーンの手がかりを推論し、動的な環境で一般化されたアクションを実行することである。
近年の自己回帰的視覚言語行動(VLA)法は、視覚言語モデル(VLM)から常識推論能力を継承し、次の行動予測を行う。
拡散に基づく行動の連続的な性質と自己回帰の文脈的推論を吸収する統合フレームワークであるHybridVLAを紹介する。
論文 参考訳(メタデータ) (2025-03-13T17:59:52Z) - Explaining and Mitigating the Modality Gap in Contrastive Multimodal Learning [7.412307614007383]
マルチモーダル学習モデルは、共有表現空間を学習することにより、画像やテキストなどの様々なモダリティをブリッジするように設計されている。
これらのモデルはしばしばモダリティギャップを示し、異なるモダリティが共有表現空間内の異なる領域を占める。
トレーニング中にモダリティギャップを生じ、持続させる上で、不整合データペアと学習可能な温度パラメータの臨界的役割を同定する。
論文 参考訳(メタデータ) (2024-12-10T20:36:49Z) - Predictive Minds: LLMs As Atypical Active Inference Agents [0.276240219662896]
GPTのような大きな言語モデル(LLM)は、しばしば受動的予測器、シミュレータ、さらにはオウムとして概念化される。
我々は認知科学と神経科学を起源とする能動推論理論を基礎としてLSMを概念化する。
論文 参考訳(メタデータ) (2023-11-16T22:11:12Z) - Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。