論文の概要: Learning What to Attend First: Modality-Importance-Guided Reasoning for Reliable Multimodal Emotion Understanding
- arxiv url: http://arxiv.org/abs/2512.02699v1
- Date: Tue, 02 Dec 2025 12:29:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.86154
- Title: Learning What to Attend First: Modality-Importance-Guided Reasoning for Reliable Multimodal Emotion Understanding
- Title(参考訳): マルチモーダル感情理解のためのモダリティ・イパタンス・ガイドによる推論
- Authors: Hyeongseop Rha, Jeong Hun Yeo, Junil Won, Se Jin Park, Yong Man Ro,
- Abstract要約: モダリティ・コンパタンス(MI)は、感情に支配的なモダリティを識別するためのシンプルで効果的なメカニズムである。
MIGRは推論シーケンスを再編成し、その説明は対象の感情に対して最も重要なモダリティから始まる。
その結果、MIGRは推論信頼性を大幅に改善し、感情的に矛盾した説明を伴う正しい予測の事例を減少させることがわかった。
- 参考スコア(独自算出の注目度): 50.014363382140324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present Modality-Importance-Guided Reasoning (MIGR), a framework designed to improve the reliability of reasoning-based multimodal emotion understanding in multimodal large language models. Although existing methods have advanced emotion understanding, they often suffer from reasoning drift: models gradually rely on their own generated text instead of multimodal evidence, and their explanations are overly shaped by visually initiated reasoning paths. To address these issues, we introduce Modality Importance (MI), a simple yet effective mechanism for identifying the emotion-dominant modality. Using MI, MIGR reorganizes reasoning sequences so that explanations begin from the modality most critical to the target emotion, preventing early reasoning from being misled by less informative cues. Our two-stage framework-comprising modality-aligned supervised fine-tuning and modality-aware reward optimization-encourages models to generate emotionally grounded, causally relevant, and coherence-preserving explanations. Experimental results on the DFEW benchmark show that MIGR substantially improves reasoning reliability, decreasing instances of correct predictions accompanied by emotionally inconsistent explanations from 18.10% to 7.37%. These results confirm the benefit of initiating reasoning from the emotion-dominant modality.
- Abstract(参考訳): 本稿では,多モーダル大規模言語モデルにおける推論に基づく多モーダル感情理解の信頼性向上を目的としたフレームワークMIGRを提案する。
モデルは、マルチモーダルな証拠ではなく、徐々に独自の生成されたテキストに依存し、それらの説明は視覚的に開始された推論経路によって過度に形作られていく。
これらの問題に対処するために,感情に優越するモダリティを識別するためのシンプルかつ効果的なメカニズムであるModality Importance(MI)を導入する。
MI を用いて、MIGR は推論シーケンスを再編成し、目的の感情に最も重要なモダリティから説明が始まり、より少ない情報的手がかりによって初期の推論が誤解されるのを防ぐ。
我々の2段階のフレームワークは、モダリティに整合した教師付き微調整とモダリティを意識した報酬最適化モデルを用いて、感情的基礎、因果関係、コヒーレンス保存の説明を生成する。
DFEWベンチマークの実験結果によると、MIGRは推論の信頼性を大幅に改善し、感情的に矛盾する説明を伴う正しい予測の事例を18.10%から7.37%に減少させる。
これらの結果は、感情に支配的なモダリティから推論を開始することの利点を裏付けるものである。
関連論文リスト
- ROVER: Benchmarking Reciprocal Cross-Modal Reasoning for Omnimodal Generation [79.17352367219736]
ROVERは1つのモダリティを使用して、もう1つの出力を誘導、検証、精査する。
ROVERは、相互モーダルな推論を明示的にターゲットとする、人間による注釈付きベンチマークである。
論文 参考訳(メタデータ) (2025-11-03T02:27:46Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - ReaLM: Reflection-Enhanced Autonomous Reasoning with Small Language Models [76.28894983518164]
小型言語モデル (SLM) は大規模言語モデル (LLM) に代わる費用対効果がある。
彼らはしばしば、限られた能力と間違いや一貫性のない答えを生み出す傾向があるため、複雑な推論に苦しむ。
本稿では、垂直領域における堅牢かつ自己充足的推論のための強化学習フレームワークであるReaLMを紹介する。
論文 参考訳(メタデータ) (2025-08-17T14:50:23Z) - Application of Multiple Chain-of-Thought in Contrastive Reasoning for Implicit Sentiment Analysis [1.9472869221587836]
暗黙の感情分析は、微妙に表現された感情を明らかにすることを目的としており、曖昧さと比喩的な言語によってしばしば隠蔽される。
本稿では、暗黙の感情分析の性能を高めるために、新しい2元逆連鎖推論フレームワークを提案する。
また、ランダム仮説の限界に対処する三重逆連鎖推論フレームワークも導入する。
論文 参考訳(メタデータ) (2025-03-10T10:10:50Z) - Decoding the Flow: CauseMotion for Emotional Causality Analysis in Long-form Conversations [22.000288488609733]
causeMotionは、Retrieval-Augmented Generation (RAG)とMultimodal fusionを基盤とした、長期にわたる感情因果推論フレームワークである。
RAGとスライディングウィンドウ機構を統合することで、コンテキストに関連のある対話セグメントを効果的に検索し、活用する。
CauseMotionと統合されたGLM-4は、オリジナルのモデルよりも因果精度が8.7%向上し、GPT-4oを1.2%上回る。
公開されているDiaASQデータセット上で、Co causedMotion-GLM-4は、精度、F1スコア、因果推論精度の最先端結果を達成する。
論文 参考訳(メタデータ) (2025-01-01T09:10:32Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。