論文の概要: Multimodal Video Emotion Recognition with Reliable Reasoning Priors
- arxiv url: http://arxiv.org/abs/2508.03722v1
- Date: Tue, 29 Jul 2025 15:55:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.325276
- Title: Multimodal Video Emotion Recognition with Reliable Reasoning Priors
- Title(参考訳): 信頼度を考慮したマルチモーダル映像感情認識
- Authors: Zhepeng Wang, Yingjian Zhu, Guanghao Dong, Hongzhu Yi, Feng Chen, Xinming Wang, Jun Xie,
- Abstract要約: 我々はGeminiを用いて、核融合の段階で前駆体として注入される微粒でモダリティの分離可能な推論トレースを生成する。
本稿では,クラス間分布とクラス内分布を協調的にバランスする損失定式化であるBa balanced Dual-Contrastive Learningを紹介する。
- 参考スコア(独自算出の注目度): 24.692842008018545
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This study investigates the integration of trustworthy prior reasoning knowledge from MLLMs into multimodal emotion recognition. We employ Gemini to generate fine-grained, modality-separable reasoning traces, which are injected as priors during the fusion stage to enrich cross-modal interactions. To mitigate the pronounced class-imbalance in multimodal emotion recognition, we introduce Balanced Dual-Contrastive Learning, a loss formulation that jointly balances inter-class and intra-class distributions. Applied to the MER2024 benchmark, our prior-enhanced framework yields substantial performance gains, demonstrating that the reliability of MLLM-derived reasoning can be synergistically combined with the domain adaptability of lightweight fusion networks for robust, scalable emotion recognition.
- Abstract(参考訳): 本研究では,MLLMからの信頼に値する事前推論知識とマルチモーダル感情認識の統合について検討する。
我々はGeminiを用いて微粒でモダリティの分離可能な推論トレースを生成し、融合段階では前駆体として注入し、クロスモーダル相互作用を豊かにする。
マルチモーダル感情認識におけるクラス不均衡を緩和するために,クラス間およびクラス内分布を協調的にバランスする損失定式化であるバランスド・デュアルコントラシブ・ラーニングを導入する。
MER2024ベンチマークを適用することで,MLLMに基づく推論の信頼性が,堅牢でスケーラブルな感情認識のための軽量融合ネットワークのドメイン適応性と相乗的に結合可能であることを示す。
関連論文リスト
- Benchmarking and Bridging Emotion Conflicts for Multimodal Emotion Reasoning [10.796256794432018]
現実的な感情対立下でMLLMを調べるための新しいベンチマークであるCA-MERを紹介する。
評価の結果,現在最先端の感情MLLMは感情衝突時の音声信号に過度に適応していることが明らかとなった。
バランスの取れたモダリティ統合を促進するパラメータ効率のよいフレームワークであるMoSEARを提案する。
論文 参考訳(メタデータ) (2025-08-02T04:03:44Z) - Bridging External and Parametric Knowledge: Mitigating Hallucination of LLMs with Shared-Private Semantic Synergy in Dual-Stream Knowledge [19.767087192966223]
本稿では,DSSP-RAG(Shared-Private Semantic Synergy)のためのDual-Stream Knowledge-Augmented Frameworkを提案する。
フレームワークの中心は、自己意識を混合意識に洗練し、制御された内外的知識統合のための共有とプライベートのセマンティクスを区別する、新しいアプローチである。
ベンチマークデータセットの実験では、DSSP-RAGは競合を効果的に解決し、二重ストリーム知識の相補性を向上し、強いベースラインよりも優れたパフォーマンスをもたらすことが示されている。
論文 参考訳(メタデータ) (2025-06-06T17:00:23Z) - GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文 参考訳(メタデータ) (2025-06-01T07:07:02Z) - Technical Approach for the EMI Challenge in the 8th Affective Behavior Analysis in-the-Wild Competition [10.741278852581646]
Emotional Mimicry Intensity (EMI)の推定は、人間の社会的行動を理解し、人間とコンピュータの相互作用を促進する上で重要な役割を担っている。
本稿では,既存手法の限界に対処する2段階のクロスモーダルアライメントフレームワークを提案する。
Hume-Vidmimic2データセットの実験では、6つの感情次元の平均ピアソン係数相関が0.51であるのに対し、優れた性能を示した。
論文 参考訳(メタデータ) (2025-03-13T17:46:16Z) - Qieemo: Speech Is All You Need in the Emotion Recognition in Conversations [1.0690007351232649]
マルチモーダルアプローチは多様なモダリティの融合による恩恵を受け、認識精度が向上する。
提案するQieemoフレームワークは,自然なフレームアライメントと感情的特徴を含む事前学習された自動音声認識(ASR)モデルを効果的に活用する。
IEMOCAPデータセットの実験結果は、Qieemoがそれぞれ3.0%、1.2%、および1.9%の絶対的な改善でベンチマークアンモダル、マルチモーダル、セルフ教師付きモデルを上回っていることを示している。
論文 参考訳(メタデータ) (2025-03-05T07:02:30Z) - The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。