論文の概要: Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs
- arxiv url: http://arxiv.org/abs/2603.22295v1
- Date: Sun, 15 Mar 2026 15:11:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.030106
- Title: Whether, Not Which: Mechanistic Interpretability Reveals Dissociable Affect Reception and Emotion Categorization in LLMs
- Title(参考訳): 機械的解釈性はLLMの解離性受容と感情分類に影響を及ぼすか
- Authors: Michael Keeman,
- Abstract要約: 臨床心理学を基礎とした機械的解釈可能性法による感情回路クレームの臨床的妥当性試験を初めて行った。
我々は2つの解離可能な感情処理機構を発見する。
我々は,大規模言語モデルにおける感情処理のクレームをテストするための厳格な基準として,臨床刺激法を紹介した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models appear to develop internal representations of emotion -- "emotion circuits," "emotion neurons," and structured emotional manifolds have been reported across multiple model families. But every study making these claims uses stimuli signalled by explicit emotion keywords, leaving a fundamental question unanswered: do these circuits detect genuine emotional meaning, or do they detect the word "devastated"? We present the first clinical validity test of emotion circuit claims using mechanistic interpretability methods grounded in clinical psychology -- clinical vignettes that evoke emotions through situational and behavioural cues alone, emotion keywords removed. Across six models (Llama-3.2-1B, Llama-3-8B, Gemma-2-9B; base and instruct variants), we apply four convergent mechanistic interpretability methods -- linear probing, causal activation patching, knockout experiments, and representational geometry -- and discover two dissociable emotion processing mechanisms. Affect reception -- detecting emotionally significant content -- operates with near-perfect accuracy (AUROC 1.000), consistent with early-layer saturation, and replicates across all six models. Emotion categorization -- mapping affect to specific emotion labels -- is partially keyword-dependent, dropping 1-7% without keywords and improving with scale. Causal activation patching confirms keyword-rich and keyword-free stimuli share representational space, transferring affective salience rather than emotion-category identity. These findings falsify the keyword-spotting hypothesis, establish a novel mechanistic dissociation, and introduce clinical stimulus methodology as a rigorous standard for testing emotion processing claims in large language models -- with direct implications for AI safety evaluation and alignment. All stimuli, code, and data are released for replication.
- Abstract(参考訳): 大きな言語モデルでは、感情の内的表現 - 「感情回路」、「感情ニューロン」、そして「構造化された感情多様体」が複数のモデルファミリーで報告されている。しかし、これらの主張を行うすべての研究は、明示的な感情キーワードによってシグナルを伝達し、基本的な疑問を未解決のまま残している。これらの回路は真の感情的意味を検知するか、それとも「普及」された」単語を検知するか。我々は、臨床心理学に根ざした機械的解釈可能性法による感情回路のクレームの最初の臨床正当性テスト - 状況的および行動的手がかりだけで感情を誘発する臨床ヴィグレット、感情キーワードを除去する。
6つのモデル (Llama-3.2-1B, Llama-3-8B, Gemma-2-9B, base and instruct variants) に対して, 線形探索, 因果活性化パッチ, ノックアウト実験, 表現幾何学の4つの収束機械的解釈法を適用し, 2つの解離可能な感情処理機構を探索する。
感情的に重要なコンテンツを検出する影響受信は、ほぼ完全な精度(AUROC 1.000)で動作し、初期層の飽和と整合し、6つのモデルすべてに複製する。
感情分類 -- 特定の感情ラベルに対するマッピングの影響 -- は、部分的にキーワード依存であり、キーワードなしで1-7%減少し、スケールで改善されている。
因果的アクティベーションパッチングは、感情カテゴリーのアイデンティティよりも感情的サリエンスを伝達する、キーワードリッチでキーワードフリーな刺激共有表現空間を確認する。
これらの結果は、キーワードスポッティング仮説を偽装し、新しい機械的解離を確立し、AIの安全性評価とアライメントに直接的な意味を持つ、大きな言語モデルで感情処理のクレームをテストするための厳格な標準として、臨床刺激方法論を導入する。
すべての刺激、コード、データは複製のためにリリースされます。
関連論文リスト
- Memory-guided Prototypical Co-occurrence Learning for Mixed Emotion Recognition [56.00118641432005]
本稿では,感情共起パターンを明示的にモデル化するメモリ誘導型プロトタイプ共起学習フレームワークを提案する。
人間の認知記憶システムに触発されて,意味レベルの共起関係を抽出するメモリ検索戦略を導入する。
本モデルは感情分布予測のための感情情報表現を学習する。
論文 参考訳(メタデータ) (2026-02-24T04:11:25Z) - Do LLMs "Feel"? Emotion Circuits Discovery and Control [54.57583855608979]
本研究では、感情表現を引き起こす内部メカニズムと、生成したテキストにおける感情の制御について検討する。
これは、大きな言語モデルで感情回路を発見し、検証する最初の体系的な研究である。
論文 参考訳(メタデータ) (2025-10-13T12:24:24Z) - SEER: The Span-based Emotion Evidence Retrieval Benchmark [8.124633573706761]
感情を表現する特定のテキストを識別する大規模言語モデルの能力をテストするために,SEER(Span-based Emotion Evidence Retrieval)ベンチマークを導入する。
我々は14個のオープンソースLCMを評価し、あるモデルでは1文入力で平均的な人的パフォーマンスにアプローチするが、その精度は長いパスで低下する。
論文 参考訳(メタデータ) (2025-10-03T20:15:24Z) - Language Models (Mostly) Do Not Consider Emotion Triggers When Predicting Emotion [87.18073195745914]
人間の感情が感情の予測において有意であると考えられる特徴とどのように相関するかを検討する。
EmoTriggerを用いて、感情のトリガーを識別する大規模言語モデルの能力を評価する。
分析の結果、感情のトリガーは感情予測モデルにとって健全な特徴ではなく、様々な特徴と感情検出のタスクの間に複雑な相互作用があることが判明した。
論文 参考訳(メタデータ) (2023-11-16T06:20:13Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - Acted vs. Improvised: Domain Adaptation for Elicitation Approaches in
Audio-Visual Emotion Recognition [29.916609743097215]
一般化された感情認識システムの開発における主な課題は、ラベル付きデータの不足とゴールドスタンダード参照の欠如である。
本研究では,感情誘発アプローチをドメイン知識とみなし,感情発話におけるドメイン伝達学習技術を探求する。
論文 参考訳(メタデータ) (2021-04-05T15:59:31Z) - Emotion pattern detection on facial videos using functional statistics [62.997667081978825]
顔面筋運動の有意なパターンを抽出する機能的ANOVAに基づく手法を提案する。
感情群間の表現に時間的差があるかどうかを関数fテストを用いて判定する。
論文 参考訳(メタデータ) (2021-03-01T08:31:08Z) - Detecting Emotion Primitives from Speech and their use in discerning
Categorical Emotions [16.886826928295203]
感情は人間同士のコミュニケーションにおいて重要な役割を担い、幸福やフラストレーション、誠実さといった感情を伝えることができる。
この研究は、感情プリミティブが、幸福、嫌悪、軽蔑、怒り、驚きといったカテゴリー的感情を中性的なスピーチから検出する方法について研究した。
以上の結果から, 覚醒と支配は, 感情のより優れた検出方法であった。
論文 参考訳(メタデータ) (2020-01-31T03:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。