論文の概要: Divide and Refine: Enhancing Multimodal Representation and Explainability for Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2601.14274v1
- Date: Sat, 10 Jan 2026 07:30:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.8246
- Title: Divide and Refine: Enhancing Multimodal Representation and Explainability for Emotion Recognition in Conversation
- Title(参考訳): ディバイドとリファイン:会話における感情認識のためのマルチモーダル表現と説明可能性の強化
- Authors: Anh-Tuan Mai, Cam-Van Thi Nguyen, Duc-Trong Le,
- Abstract要約: 会話におけるマルチモーダル感情認識には、複数のモーダルからの信号を統合する表現が必要である。
対照的な学習と拡張に基づく手法の進歩は進歩してきたが、これらのコンポーネントの保存におけるデータ準備の役割を見落としていることが多い。
2相フレームワークemphtextbfDivideとtextbfRefine(textbfDnR)を提案する。
これらの結果は、感情認識を促進するための原則的戦略として、マルチモーダル表現を明示的に分割、精製、再結合する効果を強調した。
- 参考スコア(独自算出の注目度): 2.5884126726585777
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition in conversation (MERC) requires representations that effectively integrate signals from multiple modalities. These signals include modality-specific cues, information shared across modalities, and interactions that emerge only when modalities are combined. In information-theoretic terms, these correspond to \emph{unique}, \emph{redundant}, and \emph{synergistic} contributions. An ideal representation should leverage all three, yet achieving such balance remains challenging. Recent advances in contrastive learning and augmentation-based methods have made progress, but they often overlook the role of data preparation in preserving these components. In particular, applying augmentations directly to raw inputs or fused embeddings can blur the boundaries between modality-unique and cross-modal signals. To address this challenge, we propose a two-phase framework \emph{\textbf{D}ivide and \textbf{R}efine} (\textbf{DnR}). In the \textbf{Divide} phase, each modality is explicitly decomposed into uniqueness, pairwise redundancy, and synergy. In the \textbf{Refine} phase, tailored objectives enhance the informativeness of these components while maintaining their distinct roles. The refined representations are plug-and-play compatible with diverse multimodal pipelines. Extensive experiments on IEMOCAP and MELD demonstrate consistent improvements across multiple MERC backbones. These results highlight the effectiveness of explicitly dividing, refining, and recombining multimodal representations as a principled strategy for advancing emotion recognition. Our implementation is available at https://github.com/mattam301/DnR-WACV2026
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、複数のモーダルからの信号を効果的に統合する表現を必要とする。
これらの信号には、モダリティ固有の手がかり、モダリティ間で共有される情報、モダリティが結合された場合にのみ現れる相互作用が含まれる。
情報理論の用語では、これらは \emph{unique} 、 \emph{redundant} および \emph{synergistic} の寄与に対応する。
理想的な表現は3つすべてを活用するべきですが、そのようなバランスを達成することは難しいままです。
対照的な学習と拡張に基づく手法の進歩は進歩してきたが、これらのコンポーネントの保存におけるデータ準備の役割を見落としていることが多い。
特に、生の入力や融合埋め込みに直接拡張を適用することは、モダリティ・ユニクティックとクロスモーダル信号の境界を曖昧にすることができる。
この課題に対処するために、二相フレームワーク \emph{\textbf{D}ivide と \textbf{R}efine} (\textbf{DnR}) を提案する。
textbf{Divide} 相では、各モダリティは明らかに一意性、ペアの冗長性、シナジーに分解される。
textbf{Refine} フェーズでは、調整された目的は、異なる役割を維持しながら、これらのコンポーネントの情報性を高める。
洗練された表現は、様々なマルチモーダルパイプラインとプラグアンドプレイ互換である。
IEMOCAPとMELDの大規模な実験は、複数のMERCバックボーンで一貫した改善を示している。
これらの結果は、感情認識を促進するための原則的戦略として、マルチモーダル表現を明示的に分割、精製、再結合する効果を強調した。
私たちの実装はhttps://github.com/mattam301/DnR-WACV2026で公開されています。
関連論文リスト
- MIAR: Modality Interaction and Alignment Representation Fuison for Multimodal Emotion [14.294515952573105]
マルチモーダル感情認識は、言語、視覚、音声の3つのモードを通じて人間の感情を知覚することを目的としている。
従来は、モーダル間の重要な分布差に適切に対処することなく、主にモーダル融合に焦点を当てていた。
モーダルインタラクションとアライメント表現(MIAR)という新しいアプローチを提案する。
論文 参考訳(メタデータ) (2026-01-03T06:26:13Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - BiXFormer: A Robust Framework for Maximizing Modality Effectiveness in Multi-Modal Semantic Segmentation [55.486872677160015]
マスクレベルの分類タスクとしてマルチモーダルなセマンティックセグメンテーションを再構成する。
統一モダリティマッチング(UMM)とクロスモダリティアライメント(CMA)を統合したBiXFormerを提案する。
合成および実世界のマルチモーダルベンチマーク実験により,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-06-04T08:04:58Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - A cross-modal fusion network based on self-attention and residual
structure for multimodal emotion recognition [7.80238628278552]
マルチモーダル感情認識のための自己注意構造と残像構造(CFN-SR)に基づく新たなクロスモーダル融合ネットワークを提案する。
提案手法の有効性を検証するため,RAVDESSデータセットを用いて実験を行った。
実験結果から,提案したCFN-SRは最先端技術を実現し,精度が75.76%,パラメータが26.30Mであることが確認された。
論文 参考訳(メタデータ) (2021-11-03T12:24:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。