論文の概要: Representation Without Control: Testing the Realization Effect in Language Models
- arxiv url: http://arxiv.org/abs/2605.25151v1
- Date: Sun, 24 May 2026 16:07:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.860035
- Title: Representation Without Control: Testing the Realization Effect in Language Models
- Title(参考訳): 制御のない表現:言語モデルにおける実現効果のテスト
- Authors: Ciarán Walsh, Emilio Barkett,
- Abstract要約: 大規模言語モデルは行動シミュレータとしてますます使われているが、そのアウトプットが人間のような認知メカニズムを反映しているかどうかは不明だ。
本研究では, リスクテイクが紙の後に体系的に異なる行動経済学において, 実効と実効的な利益と損失とを両立させることにより, この問題を解明する。
我々は,LPMの動作を,アクティベーションステアリングによる行動感度,内部表現の線形読み出し,因果制御の3つのレベルで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly used as behavioral simulators, but it remains unclear when their outputs reflect human-like cognitive mechanisms rather than prompt-sensitive surface patterns. We study this question through the realization effect, a well-characterized finding in behavioral economics in which risk-taking differs systematically after paper versus realized gains and losses. We evaluate LLM behavior at three levels: prompt-only behavioral sensitivity, linear readout of internal representations, and causal control via activation steering. Prompt-only results show systematic condition sensitivity, but the directional pattern does not reproduce human realization-effect predictions. Gemma's residual stream contains a linearly decodable realization-status signal at layer 18 that generalizes to held-out prompts. Steering along this direction does not, however, reliably shift downstream risk choices, a null result that holds across positive scales and in a negative sign-symmetry run. Behavioral sensitivity, latent readout, and causal control are three distinct properties that do not automatically co-occur, and successful latent readout is insufficient evidence that a model behaviorally relies on a representation during downstream decision-making.
- Abstract(参考訳): 大規模言語モデルは、行動シミュレータとしてますます使われているが、そのアウトプットが、素早い感性表面パターンよりも人間のような認知メカニズムを反映しているかは、まだ不明である。
本研究では, リスクテイクが紙の後に体系的に異なる行動経済学において, 実効と実効的な利益と損失とを両立させることにより, この問題を解明する。
我々は,LPMの動作を,アクティベーションステアリングによる行動感度,内部表現の線形読み出し,因果制御の3つのレベルで評価した。
プロンプトのみの結果は、体系的な状態感受性を示すが、方向パターンは人間の実現効果予測を再現しない。
Gemmaの残留ストリームは18層に線形にデオード可能な実現統計信号を含み、保留プロンプトに一般化する。
しかし、この方向に沿ったステアリングは、下流のリスク選択、正のスケールにまたがるヌル結果、負のシグマ対称性ランを確実にシフトしない。
行動感度、潜時読み出し、因果制御は、自動的に共起しない3つの異なる特性であり、成功した潜時読み出しは、下流の意思決定においてモデルが行動的に表現に依存するという十分な証拠である。
関連論文リスト
- Fair outputs, Biased Internals: Causal Potency and Asymmetry of Latent Bias in LLMs for High-Stakes Decisions [0.0]
本稿では,人種的関係の異なるアプリケーションを用いて,オープンウェイトモデルを用いた住宅ローン引受について検討する。
モデルでは, 出力レベルの偏りは見られず, モデル層全体にわたる人口動態の表現を保ち, 増幅している。
アクティベーションステアリングと新しい層間干渉により、この抑圧された情報が決定に関連があることを実証する。
論文 参考訳(メタデータ) (2026-05-12T12:14:58Z) - Exploitation Without Deception: Dark Triad Feature Steering Reveals Separable Antisocial Circuits in Language Models [0.0]
我々は、Dark Triadの性格特性を増幅するために、解離オートエンコーダ(SAE)を用いる。
5つの心理的指標の行動変化を評価する。
発見は、少なくとも1つの大きな言語モデルにおける反社会的傾向は、統一された構成ではなく、解離可能な構成要素から構成されていることを示唆している。
論文 参考訳(メタデータ) (2026-05-10T21:36:31Z) - Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - The Personality Illusion: Revealing Dissociation Between Self-Reports & Behavior in LLMs [60.15472325639723]
人格特性は、人間の行動の予測因子として長い間研究されてきた。
近年のLarge Language Models (LLM) は, 人工システムに類似したパターンが出現する可能性を示唆している。
論文 参考訳(メタデータ) (2025-09-03T21:27:10Z) - Representation Surgery: Theory and Practice of Affine Steering [72.61363182652853]
言語モデルは、しばしば好ましくない振る舞いを示す。
モデルが望ましくない振る舞いを示すのを防ぐための自然な(そして一般的な)アプローチの1つは、モデルの表現を操ることである。
本稿では, ステアリング機能の形式的および経験的特性について検討する。
論文 参考訳(メタデータ) (2024-02-15T00:20:30Z) - Classification and Adversarial examples in an Overparameterized Linear
Model: A Signal Processing Perspective [10.515544361834241]
最先端のディープラーニング分類器は、無限の逆境摂動に非常に敏感である。
学習されたモデルは、分類が一般化するが回帰はしない中間体制の敵に感受性がある。
敵対的感受性にもかかわらず、これらの特徴による分類は、より一般的に研究されている「非依存的特徴」モデルよりも容易である。
論文 参考訳(メタデータ) (2021-09-27T17:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。