論文の概要: Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2603.16463v1
- Date: Tue, 17 Mar 2026 12:49:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.282547
- Title: Follow the Clues, Frame the Truth: Hybrid-evidential Deductive Reasoning in Open-Vocabulary Multimodal Emotion Recognition
- Title(参考訳): 閉経期マルチモーダル感情認識におけるHybrid-Evidential Deductive Reasoning
- Authors: Yu Liu, Lei Zhang, Haoxun Li, Hanlei Shi, Yuxuan Ding, Leyuan Qu, Taihao Li,
- Abstract要約: Open-Vocabulary Multimodal Emotion Recognition (OV-MER)は,同種のマルチモーダル手がかりのあいまいさにより本質的に困難である。
本稿では,推論をPropose-Verify-Decideプロトコルとして形式化するハイブリッド・エビデンシャル・デダクティブ・推論アーキテクチャHyDRAを紹介する。
- 参考スコア(独自算出の注目度): 17.899439937763006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Open-Vocabulary Multimodal Emotion Recognition (OV-MER) is inherently challenging due to the ambiguity of equivocal multimodal cues, which often stem from distinct unobserved situational dynamics. While Multimodal Large Language Models (MLLMs) offer extensive semantic coverage, their performance is often bottlenecked by premature commitment to dominant data priors, resulting in suboptimal heuristics that overlook crucial, complementary affective cues across modalities. We argue that effective affective reasoning requires more than surface-level association; it necessitates reconstructing nuanced emotional states by synthesizing multiple evidence-grounded rationales that reconcile these observations from diverse latent perspectives. We introduce HyDRA, a Hybrid-evidential Deductive Reasoning Architecture that formalizes inference as a Propose-Verify-Decide protocol. To internalize this abductive process, we employ reinforcement learning with hierarchical reward shaping, aligning the reasoning trajectories with final task performance to ensure they best reconcile the observed multimodal cues. Systematic evaluations validate our design choices, with HyDRA consistently outperforming strong baselines--especially in ambiguous or conflicting scenarios--while providing interpretable, diagnostic evidence traces.
- Abstract(参考訳): Open-Vocabulary Multimodal Emotion Recognition (OV-MER) は、同種のマルチモーダルキューのあいまいさによって本質的に困難である。
MLLM(Multimodal Large Language Models)は、広範囲なセマンティックカバレッジを提供するが、それらのパフォーマンスは、支配的なデータに対する早期のコミットメントによってボトルネックとなることが多い。
我々は、効果的な情緒的推論は、表面レベルの関連以上のものを必要としており、様々な潜在的な視点からこれらの観察を再現する複数のエビデンスに基づく理論的根拠を合成することにより、ニュアンス化された感情状態の再構築を必要とする。
本稿では,推論をPropose-Verify-Decideプロトコルとして形式化するハイブリッド・エビデンシャル・デダクティブ・推論アーキテクチャHyDRAを紹介する。
この帰納的過程を内部化するために、階層的な報酬形成を伴う強化学習を採用し、推論軌道と最終タスク性能を整合させて、観測されたマルチモーダルキューを最適に調整する。
体系的な評価は、設計選択を検証し、HyDRAは、特に曖昧または矛盾するシナリオにおいて、強いベースラインを一貫して上回り、解釈可能な、診断可能な証拠を提供する。
関連論文リスト
- V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。
V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文 参考訳(メタデータ) (2026-02-05T18:59:21Z) - Integrating Fine-Grained Audio-Visual Evidence for Robust Multimodal Emotion Reasoning [9.470507126417292]
本稿では,ロバストなマルチモーダル推論のためのフレームワークであるSABER-LLMを紹介する。
まず,600Kビデオクリップからなる大規模感情推論データセットであるSABERを構築した。
第2に,エビデンス抽出と推論を「知覚的推論」に分離する構造的エビデンス分解パラダイムを提案する。
論文 参考訳(メタデータ) (2026-01-26T10:03:26Z) - Adversarial Yet Cooperative: Multi-Perspective Reasoning in Retrieved-Augmented Language Models [72.4149653187766]
本稿ではAdrialversa Reasoning RAG(ARR)というReasoner-Verifierフレームワークを提案する。
ReasonerとVerifierは、回収された証拠を推論し、プロセス認識の利点によってガイドされながら、互いの論理を批判する。
複数のベンチマーク実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-08T06:57:03Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Learning What to Attend First: Modality-Importance-Guided Reasoning for Reliable Multimodal Emotion Understanding [50.014363382140324]
モダリティ・コンパタンス(MI)は、感情に支配的なモダリティを識別するためのシンプルで効果的なメカニズムである。
MIGRは推論シーケンスを再編成し、その説明は対象の感情に対して最も重要なモダリティから始まる。
その結果、MIGRは推論信頼性を大幅に改善し、感情的に矛盾した説明を伴う正しい予測の事例を減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-02T12:29:41Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - Beyond Spurious Signals: Debiasing Multimodal Large Language Models via Counterfactual Inference and Adaptive Expert Routing [10.66971486730557]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合する能力を示すが、しばしば素早い相関に頼っている。
本稿では,MLLMの表層相関バイアスに対する批判的課題を,新たな因果媒介に基づく脱バイアスフレームワークを通じて解決する。
論文 参考訳(メタデータ) (2025-09-18T19:01:11Z) - Extended Inductive Reasoning for Personalized Preference Inference from Behavioral Signals [45.019257216564036]
本稿では,大規模言語モデル(LLM)の拡張帰納的推論について検討する。
本稿では,ユーザのインタラクション履歴の行動信号から体系的な選好推定を可能にするモデルであるAlignXploreを提案する。
我々は、AlignXploreが、ドメイン内およびドメイン外のベンチマークで平均15.49%、バックボーンモデルよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2025-05-23T16:16:46Z) - Progressive Multimodal Reasoning via Active Retrieval [64.74746997923967]
多段階多モーダル推論タスクは、大規模言語モデル(MLLM)に重大な課題をもたらす
本稿では,MLLMの推論能力の向上を目的とした汎用フレームワークAR-MCTSを提案する。
我々は,AR-MCTSがサンプリングの多様性と精度を最適化し,信頼性の高いマルチモーダル推論を実現することを示す。
論文 参考訳(メタデータ) (2024-12-19T13:25:39Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。