論文の概要: Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning
- arxiv url: http://arxiv.org/abs/2601.18321v1
- Date: Mon, 26 Jan 2026 10:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.764769
- Title: Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning
- Title(参考訳): ロバストなマルチモーダル・エモーダル・リソンのための微視的オーディオ・ビジュアルエビデンスの統合
- Authors: Zhixian Zhao, Wenjie Tian, Xiaohai Tian, Jun Zhang, Lei Xie,
- Abstract要約: 本稿では,ロバストなマルチモーダル推論のためのフレームワークであるSABER-LLMを紹介する。
まず,600Kビデオクリップからなる大規模感情推論データセットであるSABERを構築した。
第2に,エビデンス抽出と推論を「知覚的推論」に分離する構造的エビデンス分解パラダイムを提案する。
- 参考スコア(独自算出の注目度): 15.514294730829782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion analysis is shifting from static classification to generative reasoning. Beyond simple label prediction, robust affective reasoning must synthesize fine-grained signals such as facial micro-expressions and prosodic which shifts to decode the latent causality within complex social contexts. However, current Multimodal Large Language Models (MLLMs) face significant limitations in fine-grained perception, primarily due to data scarcity and insufficient cross-modal fusion. As a result, these models often exhibit unimodal dominance which leads to hallucinations in complex multimodal interactions, particularly when visual and acoustic cues are subtle, ambiguous, or even contradictory (e.g., in sarcastic scenery). To address this, we introduce SABER-LLM, a framework designed for robust multimodal reasoning. First, we construct SABER, a large-scale emotion reasoning dataset comprising 600K video clips, annotated with a novel six-dimensional schema that jointly captures audiovisual cues and causal logic. Second, we propose the structured evidence decomposition paradigm, which enforces a "perceive-then-reason" separation between evidence extraction and reasoning to alleviate unimodal dominance. The ability to perceive complex scenes is further reinforced by consistency-aware direct preference optimization, which explicitly encourages alignment among modalities under ambiguous or conflicting perceptual conditions. Experiments on EMER, EmoBench-M, and SABER-Test demonstrate that SABER-LLM significantly outperforms open-source baselines and achieves robustness competitive with closed-source models in decoding complex emotional dynamics. The dataset and model are available at https://github.com/zxzhao0/SABER-LLM.
- Abstract(参考訳): マルチモーダル感情分析は静的分類から生成的推論へとシフトしている。
単純なラベル予測の他に、堅牢な感情的推論は、複雑な社会的文脈における潜伏因果関係をデコードするために、顔の微小表現や韻律のようなきめ細かい信号を合成しなければならない。
しかし、現在のMLLM(Multimodal Large Language Models)は、データ不足とクロスモーダル融合が不十分なため、微粒化知覚において重大な制限に直面している。
結果として、これらのモデルは、複雑なマルチモーダル相互作用、特に視覚的および音響的手がかりが微妙であいまいで、あるいは矛盾している場合(例えば、皮肉な風景において)に幻覚をもたらす、単調な優位性を示すことが多い。
そこで本稿では,ロバストなマルチモーダル推論のためのフレームワークであるSABER-LLMを紹介する。
まず、600Kのビデオクリップからなる大規模感情推論データセットであるSABERを構築し、音声視覚的手がかりと因果論理を共同でキャプチャする新しい6次元スキーマをアノテートする。
第2に,一様支配を緩和するために,証拠抽出と推論を「知覚的推論」に分離する構造的エビデンス分解パラダイムを提案する。
複雑なシーンを知覚する能力は、一貫性を意識した直接選好最適化によってさらに強化され、曖昧または矛盾する知覚条件下でのモダリティ間のアライメントを明示的に促進する。
EMER、EmoBench-M、SABER-Testの実験では、SABER-LLMはオープンソースベースラインを著しく上回り、複雑な感情力学の復号においてクローズドソースモデルと競合する堅牢性を実現している。
データセットとモデルはhttps://github.com/zxzhao0/SABER-LLM.comで公開されている。
関連論文リスト
- Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - Multimodal Inconsistency Reasoning (MMIR): A New Benchmark for Multimodal Reasoning Models [26.17300490736624]
MLLM(Multimodal Large Language Models)は、一貫した視覚・テキスト入力で主に訓練され、テストされる。
本稿では,MLLMの意味的ミスマッチの検出と推論能力を評価するためのマルチモーダル不整合推論ベンチマークを提案する。
我々は6つの最先端MLLMを評価し、o1のような専用マルチモーダル推論能力を持つモデルは、その性能を大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-02-22T01:52:37Z) - Tracing Intricate Cues in Dialogue: Joint Graph Structure and Sentiment Dynamics for Multimodal Emotion Recognition [37.12407597998884]
マルチモーダル対話における複雑な感情的手がかりを追跡するために,GraphSmileという新しい手法が提案されている。
GraphSmileは2つの重要なコンポーネント、すなわちGSFとSDPモジュールから構成される。
複数のベンチマークにおける実証的な結果は、GraphSmileが複雑な感情的および感情的パターンを処理可能であることを示している。
論文 参考訳(メタデータ) (2024-07-31T11:47:36Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。