Fugu-MT 論文翻訳(概要): Interpreting and Enhancing Emotional Circuits in Large Vision-Language Models via Cross-Modal Information Flow

論文の概要: Interpreting and Enhancing Emotional Circuits in Large Vision-Language Models via Cross-Modal Information Flow

arxiv url: http://arxiv.org/abs/2605.21980v1
Date: Thu, 21 May 2026 04:20:12 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.08945
Title: Interpreting and Enhancing Emotional Circuits in Large Vision-Language Models via Cross-Modal Information Flow
Title（参考訳）: クロスモーダル・インフォメーション・フローを用いた大規模視覚言語モデルにおける感情回路の解釈と強化
Authors: Chengsheng Zhang, Chenghao Sun, Zhining Xie, Xinmei Tian,
Abstract要約: LVLMの内部メカニズムは、抽象的な視覚刺激をコヒーレントな感情的物語へと変換する。説明的感情的推論に適したステアリングベクターに基づく因果帰属フレームワークを提案する。我々は、感情情報ルーティングを規制し、注意の流れを強化し、セマンティックアクティベーションを増幅し、表現を統合する。
参考スコア（独自算出の注目度）: 12.059256609530294
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Vision-Language Models (LVLMs) represent a significant leap towards empathetic agents, demonstrating remarkable capabilities in emotion understanding. However, the internal mechanisms governing how LVLMs translate abstract visual stimuli into coherent emotional narratives remain largely unexplored, primarily due to the scarcity of visual counterfactuals and the diffuse nature of emotional expression. In this paper, we bridge this gap by introducing a steering-vector-based causal attribution framework tailored for descriptive emotional reasoning. To this end, we construct a specialized dataset to demystify the emotional circuits underlying the three-stage ``Adapt-Aggregate-Execute'' mechanism. Crucially, we discover a functional decoupling: visual emotional cues are aggregated in middle layers via sentiment-specific attention heads, but are subsequently translated into narrative generation in deep layers through emotion-general pathways. Guided by these insights, we regulate the emotional information routing to strengthen attention flow and amplify the semantic activation to consolidate expression. Extensive experiments on the comprehensive MER-UniBench demonstrate that our methods significantly improve performance via inference-time intervention, effectively mitigating emotional hallucinations and corroborating the causal fidelity of the discovered circuits.
Abstract（参考訳）: LVLM(Large Vision-Language Models)は共感的エージェントへの大きな飛躍であり、感情理解において顕著な能力を示す。しかし、LVLMが抽象的な視覚刺激をコヒーレントな感情的物語に翻訳する方法を規定する内部メカニズムは、主に視覚的反事実の欠如と感情的表現の拡散の性質のために、ほとんど解明されていないままである。本稿では,このギャップを,説明的感情的推論に適したステアリングベクターに基づく因果帰属フレームワークを導入することによって埋める。そこで我々は,3段階の「アダプティブ・アグリゲート・エクユート」メカニズムに基づく感情回路をデミストする特別なデータセットを構築した。視覚的感情的手がかりは、感情特異的な注意頭を通して中層に集約されるが、その後、感情的一般的な経路を通じて深い層における物語生成に変換される。これらの知見に導かれ、注意の流れを強化するために感情情報ルーティングを規制し、セマンティックアクティベーションを増幅し、表現を統一する。包括的MER-UniBench実験により,提案手法は推論時間介入により,感情幻覚を効果的に緩和し,回路の因果的忠実度を相関させることにより,性能を著しく向上することが示された。

関連論文リスト

From Syntax to Emotion: A Mechanistic Analysis of Emotion Inference in LLMs [1.4692712025142225]
大規模言語モデル(LLM)における感情認識の内部メカニズムについて検討する。層間におけるスパース特徴アクティベーションの解析により,一貫した3相情報フローを同定する。感情表現は感情間で共有される特徴と感情特有の特徴の両方から構成されることを示す。
論文参考訳（メタデータ） (2026-04-28T17:03:16Z)
EMO-R3: Reflective Reinforcement Learning for Emotional Reasoning in Multimodal Large Language Models [62.3977734456669]
マルチモーダル大規模言語モデル(MLLM)の感情的推論能力を高めるためのフレームワークとして,情緒的推論のための反射強化学習(EMO-R3)を提案する。構造化された感情的思考を導入し、構造化された解釈可能な方法で段階的に感情的推論を行い、そのモデルが視覚的テキストの一貫性と感情的コヒーレンスに基づいてその推論を再評価できる反射的感情的回帰を設計する。 EMO-R3はMLLMの解釈可能性と感情的インテリジェンスの両方を大幅に改善し、複数の視覚的感情理解ベンチマークにおいて優れた性能を達成する。
論文参考訳（メタデータ） (2026-02-27T08:42:52Z)
Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。本手法は,対象感情と明確に一致した推論をモデルに導出する。我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文参考訳（メタデータ） (2025-10-27T16:40:17Z)
Anatomy of a Feeling: Narrating Embodied Emotions via Large Vision-Language Models [1.8349570933241344]
身体的LVLM感情ナラティブ(ELENA)を生成するための枠組みを提案する。これらは、感情的な反応に関与する健康な身体の部分に焦点を当てた、明確に定義された多層テキスト出力である。我々は,我々の採用したフレームワークが,顔に写った画像の感情を効果的に認識し,微調整をせずにベースラインを上回り得ることを観察した。
論文参考訳（メタデータ） (2025-09-23T21:34:57Z)
From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文参考訳（メタデータ） (2025-07-16T04:15:06Z)
Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文参考訳（メタデータ） (2025-04-25T05:28:21Z)
SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文参考訳（メタデータ） (2021-10-24T02:41:41Z)
Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2021-09-04T08:14:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。