論文の概要: Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in LLMs
- arxiv url: http://arxiv.org/abs/2509.24319v1
- Date: Mon, 29 Sep 2025 05:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.775626
- Title: Dual Mechanisms of Value Expression: Intrinsic vs. Prompted Values in LLMs
- Title(参考訳): 価値表現の2つのメカニズム: LLMにおける固有値とプロンプト値
- Authors: Jongwook Han, Jongwon Lim, Injin Kong, Yohan Jo,
- Abstract要約: 大きな言語モデル(LLM)は2つの異なる方法で異なる値を表現することができる。
内在的表現では、トレーニング中に学んだモデル固有の価値を反映し、明示的なプロンプトによって引き起こされる表現を誘発する。
内在的および帰納的価値機構は、値表現の誘導に不可欠であるが、異なる方法で現れるユニークな要素も持つ共通成分を部分的に共有していることを示す。
- 参考スコア(独自算出の注目度): 12.828802703915455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) can express different values in two distinct ways: (1) intrinsic expression, reflecting the model's inherent values learned during training, and (2) prompted expression, elicited by explicit prompts. Given their widespread use in value alignment and persona steering, it is paramount to clearly understand their underlying mechanisms, particularly whether they mostly overlap (as one might expect) or rely on substantially different mechanisms, but this remains largely understudied. We analyze this at the mechanistic level using two approaches: (1) value vectors, feature directions representing value mechanisms extracted from the residual stream, and (2) value neurons, MLP neurons that contribute to value expressions. We demonstrate that intrinsic and prompted value mechanisms partly share common components that are crucial for inducing value expression, but also possess unique elements that manifest in different ways. As a result, these mechanisms lead to different degrees of value steerability (prompted > intrinsic) and response diversity (intrinsic > prompted). In particular, components unique to the intrinsic mechanism seem to promote lexical diversity in responses, whereas those specific to the prompted mechanism primarily strengthen instruction following, taking effect even in distant tasks like jailbreaking.
- Abstract(参考訳): 大きな言語モデル(LLM)は、(1)本質的な表現、トレーニング中に学習したモデルの固有の値を反映する、(2)明示的なプロンプトによって引き起こされる表現の2つの異なる方法で異なる値を表現することができる。
バリューアライメントとペルソナのステアリングに広く使用されていることから、その基盤となるメカニズム、特に主に重複している(予想される)か、あるいは実質的に異なるメカニズムに依存しているかを明確に理解することが最重要である。
本研究では,(1)値ベクトル,(2)残ストリームから抽出した値のメカニズムを表す特徴方向,(2)値の表現に寄与するMLPニューロンの2つの手法を用いて,これを力学レベルで解析する。
内在的および帰納的価値機構が、価値表現の誘導に不可欠であるが、異なる方法で表されるユニークな要素を持つ共通成分を部分的に共有していることを示します。
その結果、これらのメカニズムは、異なる値ステアビリティ(prompted > intrinsic)と応答多様性(inrinsic > prompt)をもたらす。
特に、本質的なメカニズムに特有のコンポーネントは、応答の語彙的多様性を促進するように思われるが、引き起こされるメカニズムに特有のコンポーネントは、主に、ジェイルブレイクのような遠いタスクでも影響を受けながら、指示に従うことを強化する。
関連論文リスト
- Beyond Benchmarks: Understanding Mixture-of-Experts Models through Internal Mechanisms [55.1784306456972]
Mixture-of-Experts (MoE)アーキテクチャは、推論中にパラメータのサブセットだけをアクティベートすることで、効率とスケーラビリティを提供する、有望な方向性として登場した。
内部メトリックを用いて、ルーティング機構を明示的に取り入れ、専門家レベルの振る舞いを分析することで、MoEアーキテクチャのメカニズムを解明する。
その結果,(1)モデルの発展に伴ってニューロンの利用が減少し,より高度な一般化が期待できる,(2)ベンチマークのパフォーマンスが限られた信号のみを提供するダイナミックな軌道を示す,(3)複数の専門家の協力的貢献からタスク完了が生じる,(4)ニューロンレベルでの活性化パターンがデータ多様性のきめ細かいプロキシを提供する,といった結果が得られた。
論文 参考訳(メタデータ) (2025-09-28T15:13:38Z) - LLM Assertiveness can be Mechanistically Decomposed into Emotional and Logical Components [0.17188280334580197]
LLM(Large Language Models)は、しばしば過剰な自信を示し、高い文脈で不確実性のある情報を提示する。
我々は、人間の注釈付きアサーション性データセットを微調整したオープンソースのLlama 3.2モデルを使用している。
分析により,アサーションのコントラストに最も敏感な層が同定され,高いアサーティブ表現が感情的・論理的クラスタの2つのサブコンポーネントに分解されることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-24T01:43:48Z) - Understanding Matching Mechanisms in Cross-Encoders [11.192264101562786]
クロスエンコーダは、内部メカニズムがほとんど不明な非常に効果的なモデルである。
ほとんどの作業は、ハイレベルなプロセスに重点を置いている。
より簡単な方法が、すでに価値ある洞察を提供できることを実証します。
論文 参考訳(メタデータ) (2025-07-19T13:05:27Z) - Internal Causal Mechanisms Robustly Predict Language Model Out-of-Distribution Behaviors [61.92704516732144]
正当性予測の最も堅牢な特徴は、モデルの振舞いに特徴的な因果的役割を果たすものであることを示す。
モデル出力の正しさを予測するために因果メカニズムを利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2025-05-17T00:31:39Z) - Competition of Mechanisms: Tracing How Language Models Handle Facts and Counterfactuals [82.68757839524677]
解釈可能性研究は、経験的成功と大規模言語モデル(LLM)の科学的理解のギャップを埋めることを目的としている。
本稿では,個々のメカニズムではなく,複数のメカニズムの相互作用に着目した,メカニズムの競合の定式化を提案する。
本研究は, 種々のモデル成分間の機構とその競合の痕跡を示し, 特定の機構の強度を効果的に制御する注意位置を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T17:26:51Z) - Causal Abstraction: A Theoretical Foundation for Mechanistic Interpretability [30.76910454663951]
因果抽象化は機械的解釈可能性の理論的基盤を提供する。
我々の貢献は、メカニズム置換から任意のメカニズム変換への因果的抽象化の理論の一般化である。
論文 参考訳(メタデータ) (2023-01-11T20:42:41Z) - Properties from Mechanisms: An Equivariance Perspective on Identifiable
Representation Learning [79.4957965474334]
教師なし表現学習の主な目標は、データ生成プロセスが潜在プロパティを回復するために「反転」することである。
この論文は「進化を支配するメカニズムの知識を活用して潜伏特性を識別するのか?」と問う。
我々は、可能なメカニズムの集合に関する知識が異なるため、不特定性の原因の完全な特徴づけを提供する。
論文 参考訳(メタデータ) (2021-10-29T14:04:08Z) - Transformers with Competitive Ensembles of Independent Mechanisms [97.93090139318294]
隠れた表現とパラメータを複数のメカニズムに分割し、注意を通して情報を交換する新しいトランスフォーマー層を提案する。
TIM を大規模 BERT モデル、画像変換器、および音声強調について研究し、意味的に意味のある専門化とパフォーマンスの向上の証拠を見つけます。
論文 参考訳(メタデータ) (2021-02-27T21:48:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。