論文の概要: Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM
- arxiv url: http://arxiv.org/abs/2602.19159v1
- Date: Sun, 22 Feb 2026 12:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.509868
- Title: Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM
- Title(参考訳): ビヘイビア・トレードオフを超えて:LLMにおける痛み緩和決定の機械的追跡
- Authors: Francesca Bianco, Derek Shiller,
- Abstract要約: 以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。
Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。
我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior behavioural work suggests that some LLMs alter choices when options are framed as causing pain or pleasure, and that such deviations can scale with stated intensity. To bridge behavioural evidence (what the model does) with mechanistic interpretability (what computations support it), we investigate how valence-related information is represented and where it is causally used inside a transformer. Using Gemma-2-9B-it and a minimalist decision task modelled on prior work, we (i) map representational availability with layer-wise linear probing across streams, (ii) test causal contribution with activation interventions (steering; patching/ablation), and (iii) quantify dose-response effects over an epsilon grid, reading out both the 2-3 logit margin and digit-pair-normalised choice probabilities. We find that (a) valence sign (pain vs. pleasure) is perfectly linearly separable across stream families from very early layers (L0-L1), while a lexical baseline retains substantial signal; (b) graded intensity is strongly decodable, with peaks in mid-to-late layers and especially in attention/MLP outputs, and decision alignment is highest slightly before the final token; (c) additive steering along a data-derived valence direction causally modulates the 2-3 margin at late sites, with the largest effects observed in late-layer attention outputs (attn_out L14); and (d) head-level patching/ablation suggests that these effects are distributed across multiple heads rather than concentrated in a single unit. Together, these results link behavioural sensitivity to identifiable internal representations and intervention-sensitive sites, providing concrete mechanistic targets for more stringent counterfactual tests and broader replication. This work supports a more evidence-driven (a) debate on AI sentience and welfare, and (b) governance when setting policy, auditing standards, and safety safeguards.
- Abstract(参考訳): 以前の行動学的研究では、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。
動作証拠(モデルが何をするか)を機械的解釈可能性(どのような計算がそれをサポートするか)で橋渡しするために,有価値関連情報がどのように表現され,変換器内で因果的に使用されるかを検討する。
Gemma-2-9B-itと事前作業に基づく最小限の決定タスクを用いた。
(i) ストリームを横断するレイヤワイドな線形探索による地図表現の可利用性。
二 アクティベーション介入(ステアリング、パッチング/アブレーション)及び試験因果関係
3)エプシロングリッド上での線量応答効果を定量化し、2-3ロジットマージンと桁対正規化選択確率の両方を読み取る。
私たちはそれを見つける。
(a)原子価記号(痛みと喜び)は、非常に初期の層(L0-L1)からストリームファミリー間で完全に線形に分離でき、一方、語彙ベースラインは実質的な信号を保持する。
(b)級数強度は、中~後期層、特に注目/MLP出力のピークが強く、最終トークンより少し前に決定アライメントが最多である。
(c)データ由来の価値方向に沿った添加性ステアリングは、後期の2-3マージンを因果的に調節し、後期の注意出力(attn_out L14)において最も大きな効果を示す。
(d)ヘッドレベルのパッチング/アブレーションは、これらの効果が単一のユニットに集中するのではなく、複数のヘッドに分散していることを示唆している。
これらの結果は、識別可能な内部表現と介入感受性部位に行動感受性を関連付け、より厳密な反事実テストとより広範な複製のための具体的な機械的目標を提供する。
この仕事はよりエビデンス駆動の
a)AIの知覚と福祉に関する討論,及び
b) 政策、監査基準及び安全保護の設定時のガバナンス
関連論文リスト
- Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。
1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。
実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文 参考訳(メタデータ) (2026-01-09T07:59:18Z) - Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs [0.0]
本稿では,3つのコントリビューションを通じて,大規模言語モデル(LLM)のアンカー化に関する研究を進める。
その結果、Gemma-2B、Phi-2、Llama-2-7Bではアンカーが再重み付けに影響を及ぼすことが示唆された。
LLMのアンカーバイアスは、適用ドメインのリスクを強調しながら、堅牢で、測定可能で、解釈可能であることを示す。
論文 参考訳(メタデータ) (2025-11-07T23:35:19Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - Zero-Shot Event Causality Identification via Multi-source Evidence Fuzzy Aggregation with Large Language Models [11.541829239773643]
事象因果同定(ECI)は、テキストコンテキストにおける事象間の因果関係を検出することを目的としている。
既存のECIモデルは、主に管理された方法論に依存しており、大規模な注釈付きデータに依存している。
本稿では,Multi-source Evidence Fuzzy Aggregationに基づく新しいゼロショットフレームワークMEFAを提案する。
論文 参考訳(メタデータ) (2025-06-06T01:56:05Z) - SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。
最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。
我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文 参考訳(メタデータ) (2025-04-07T02:42:07Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z) - Identifying Weight-Variant Latent Causal Models [82.14087963690561]
推移性は潜在因果表現の識別性を阻害する重要な役割を担っている。
いくつかの軽微な仮定の下では、潜伏因果表現が自明な置換とスケーリングまで特定可能であることを示すことができる。
本稿では,その間の因果関係や因果関係を直接学習する構造的caUsAl変分自動エンコーダを提案する。
論文 参考訳(メタデータ) (2022-08-30T11:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。