Fugu-MT 論文翻訳(概要): Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM

論文の概要: Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM

arxiv url: http://arxiv.org/abs/2602.19159v1
Date: Sun, 22 Feb 2026 12:42:38 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.509868
Title: Beyond Behavioural Trade-Offs: Mechanistic Tracing of Pain-Pleasure Decisions in an LLM
Title（参考訳）: ビヘイビア・トレードオフを超えて:LLMにおける痛み緩和決定の機械的追跡
Authors: Francesca Bianco, Derek Shiller,
Abstract要約: 以前の研究は、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。本研究では, 変圧器内における原子価関連情報がどのように表現され, どこで因果的に使用されるかを検討する。 Gemma-2-9B-itと、前処理をモデルとした最小限の決定タスクを用いて、(i)ストリームを横断する層ワイドな線形プローブを用いて、表現の可用性をマップする。我々は,活性化介入(ステアリング,パッチ,アブレーション)による因果的寄与を検証し,(iii)エプシロングリッド上での線量応答効果を定量化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Prior behavioural work suggests that some LLMs alter choices when options are framed as causing pain or pleasure, and that such deviations can scale with stated intensity. To bridge behavioural evidence (what the model does) with mechanistic interpretability (what computations support it), we investigate how valence-related information is represented and where it is causally used inside a transformer. Using Gemma-2-9B-it and a minimalist decision task modelled on prior work, we (i) map representational availability with layer-wise linear probing across streams, (ii) test causal contribution with activation interventions (steering; patching/ablation), and (iii) quantify dose-response effects over an epsilon grid, reading out both the 2-3 logit margin and digit-pair-normalised choice probabilities. We find that (a) valence sign (pain vs. pleasure) is perfectly linearly separable across stream families from very early layers (L0-L1), while a lexical baseline retains substantial signal; (b) graded intensity is strongly decodable, with peaks in mid-to-late layers and especially in attention/MLP outputs, and decision alignment is highest slightly before the final token; (c) additive steering along a data-derived valence direction causally modulates the 2-3 margin at late sites, with the largest effects observed in late-layer attention outputs (attn_out L14); and (d) head-level patching/ablation suggests that these effects are distributed across multiple heads rather than concentrated in a single unit. Together, these results link behavioural sensitivity to identifiable internal representations and intervention-sensitive sites, providing concrete mechanistic targets for more stringent counterfactual tests and broader replication. This work supports a more evidence-driven (a) debate on AI sentience and welfare, and (b) governance when setting policy, auditing standards, and safety safeguards.
Abstract（参考訳）: 以前の行動学的研究では、一部のLCMは、選択肢が痛みや快楽を引き起こすものとしてフレーム化されているときに選択を変更でき、そのような偏差は、記述された強度でスケール可能であることを示唆している。動作証拠(モデルが何をするか)を機械的解釈可能性(どのような計算がそれをサポートするか)で橋渡しするために,有価値関連情報がどのように表現され,変換器内で因果的に使用されるかを検討する。 Gemma-2-9B-itと事前作業に基づく最小限の決定タスクを用いた。 (i) ストリームを横断するレイヤワイドな線形探索による地図表現の可利用性。二アクティベーション介入(ステアリング、パッチング/アブレーション)及び試験因果関係 3)エプシロングリッド上での線量応答効果を定量化し、2-3ロジットマージンと桁対正規化選択確率の両方を読み取る。私たちはそれを見つける。 (a)原子価記号(痛みと喜び)は、非常に初期の層(L0-L1)からストリームファミリー間で完全に線形に分離でき、一方、語彙ベースラインは実質的な信号を保持する。 (b)級数強度は、中～後期層、特に注目/MLP出力のピークが強く、最終トークンより少し前に決定アライメントが最多である。 (c)データ由来の価値方向に沿った添加性ステアリングは、後期の2-3マージンを因果的に調節し、後期の注意出力(attn_out L14)において最も大きな効果を示す。 (d)ヘッドレベルのパッチング/アブレーションは、これらの効果が単一のユニットに集中するのではなく、複数のヘッドに分散していることを示唆している。これらの結果は、識別可能な内部表現と介入感受性部位に行動感受性を関連付け、より厳密な反事実テストとより広範な複製のための具体的な機械的目標を提供する。この仕事はよりエビデンス駆動の a)AIの知覚と福祉に関する討論,及び b) 政策、監査基準及び安全保護の設定時のガバナンス

関連論文リスト

Hallucination Begins Where Saliency Drops [18.189047289404325]
幻覚は、前の出力トークンが次のトークンの予測に対して低い正当性を示すときにしばしば起こる。 LVLMs-Saliencyは,各出力トークンの視覚的グラウンドリング強度を定量化する,勾配認識型診断フレームワークである。本手法は, 流速とタスク性能を保ちながら幻覚率を大幅に低減し, 堅牢かつ解釈可能なソリューションを提供する。
論文参考訳（メタデータ） (2026-01-28T05:50:52Z)
Ground What You See: Hallucination-Resistant MLLMs via Caption Feedback, Diversity-Aware Sampling, and Conflict Regularization [38.469173375694076]
マルチモーダル大言語モデル(MLLM)における幻覚の根本原因を系統的に解析する。 1)不正確な初期記述が後続の推論を誤った前提に固定する連鎖的視覚推論の過度な信頼、(2)政策最適化中の探索の多様性が不十分で、過度に自信があるが誤ったアウトプットを発生させる要因、(3)トレーニングサンプル間の破壊的な衝突、NTKの類似性が誤関連や不安定なパラメータ更新を引き起こす要因である。実験の結果,提案手法は幻覚率を著しく低減し,MLLMの推論精度を効果的に向上することが示された。
論文参考訳（メタデータ） (2026-01-09T07:59:18Z)
Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs [0.0]
本稿では,3つのコントリビューションを通じて,大規模言語モデル(LLM)のアンカー化に関する研究を進める。その結果、Gemma-2B、Phi-2、Llama-2-7Bではアンカーが再重み付けに影響を及ぼすことが示唆された。 LLMのアンカーバイアスは、適用ドメインのリスクを強調しながら、堅牢で、測定可能で、解釈可能であることを示す。
論文参考訳（メタデータ） (2025-11-07T23:35:19Z)
Where Did It Go Wrong? Attributing Undesirable LLM Behaviors via Representation Gradient Tracing [12.835224376066769]
大きな言語モデル(LLM)は目覚ましい機能を示しているが、そのデプロイメントは望ましくない振る舞いによってしばしば損なわれている。本稿では,表現とその勾配を解析することによって,望ましくないLCMの挙動を診断する,新しい,効率的なフレームワークを提案する。本手法は,有害な内容の追跡,バックドア中毒の検出,知識汚染の同定などのタスクに対して,系統的に評価する。
論文参考訳（メタデータ） (2025-09-26T12:07:47Z)
GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文参考訳（メタデータ） (2025-07-24T02:34:13Z)
Zero-Shot Event Causality Identification via Multi-source Evidence Fuzzy Aggregation with Large Language Models [11.541829239773643]
事象因果同定(ECI)は、テキストコンテキストにおける事象間の因果関係を検出することを目的としている。既存のECIモデルは、主に管理された方法論に依存しており、大規模な注釈付きデータに依存している。本稿では,Multi-source Evidence Fuzzy Aggregationに基づく新しいゼロショットフレームワークMEFAを提案する。
論文参考訳（メタデータ） (2025-06-06T01:56:05Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
SEAL: Steerable Reasoning Calibration of Large Language Models for Free [58.931194824519935]
大規模言語モデル(LLM)は、拡張チェーン・オブ・ソート(CoT)推論機構を通じて複雑な推論タスクに魅力的な機能を示した。最近の研究では、CoT推論トレースにかなりの冗長性が示されており、これはモデル性能に悪影響を及ぼす。我々は,CoTプロセスをシームレスに校正し,高い効率性を示しながら精度を向上する,トレーニング不要なアプローチであるSEALを紹介した。
論文参考訳（メタデータ） (2025-04-07T02:42:07Z)
Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文参考訳（メタデータ） (2025-03-14T07:58:26Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
Identifying Weight-Variant Latent Causal Models [82.14087963690561]
推移性は潜在因果表現の識別性を阻害する重要な役割を担っている。いくつかの軽微な仮定の下では、潜伏因果表現が自明な置換とスケーリングまで特定可能であることを示すことができる。本稿では,その間の因果関係や因果関係を直接学習する構造的caUsAl変分自動エンコーダを提案する。
論文参考訳（メタデータ） (2022-08-30T11:12:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。