論文の概要: Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition
- arxiv url: http://arxiv.org/abs/2604.14204v1
- Date: Fri, 03 Apr 2026 14:47:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.716063
- Title: Disentangled Dual-Branch Graph Learning for Conversational Emotion Recognition
- Title(参考訳): 対話型感情認識のための二分岐グラフ学習
- Authors: Chengling Guo, Yuntao Shou, Tao Meng, Wei Ai, Yun Tan, Keqin Li,
- Abstract要約: 会話におけるマルチモーダル感情認識は、コンテキスト内のテキスト、音響、視覚的手がかりを共同でモデル化することにより、発話レベルの感情を推測することを目的としている。
本稿では,二重空間特徴の絡み合いと二重分岐グラフ学習を組み合わせたフレームワークを提案する。
IEMOCAPとMELDの実験により,提案手法は強いベースラインよりも優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 37.30058027224552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal emotion recognition in conversations aims to infer utterance-level emotions by jointly modeling textual, acoustic, and visual cues within context. Despite recent progress, key challenges remain, including redundant cross-modal information, imperfect semantic alignment, and insufficient modeling of high-order speaker interactions. To address these issues, we propose a framework that combines dual-space feature disentanglement with dual-branch graph learning. A shared encoder and modality-specific encoders are used to separate modality-invariant and modality-specific representations. The invariant features are modeled by a Fourier graph neural network to capture global consistency and complementary patterns, with a frequency-domain contrastive objective to enhance discriminability. In parallel, a speaker-aware hypergraph is constructed over modality-specific features to model high-order interactions, along with a speaker-consistency constraint to maintain coherent semantics. Finally, the two branches are fused for utterance-level emotion prediction. Experiments on IEMOCAP and MELD demonstrate that the proposed method achieves superior performance over strong baselines, validating its effectiveness.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識は、コンテキスト内のテキスト、音響、視覚的手がかりを共同でモデル化することにより、発話レベルの感情を推測することを目的としている。
近年の進歩にもかかわらず、冗長なクロスモーダル情報、不完全なセマンティックアライメント、高次話者相互作用の不十分なモデリングなど、重要な課題が残っている。
これらの問題に対処するために,2次元空間特徴分散と2次元分岐グラフ学習を組み合わせたフレームワークを提案する。
共有エンコーダとモダリティ固有エンコーダは、モダリティ不変表現とモダリティ固有表現を分離するために使用される。
この不変機能は、グローバルな一貫性と相補的なパターンを捉えるために、フーリエグラフニューラルネットワークによってモデル化され、周波数領域のコントラスト目的により識別性を高める。
平行して、話者認識ハイパーグラフは、高次相互作用をモデル化するためのモダリティ特有の特徴と、コヒーレントセマンティクスを維持するための話者一貫性制約の上に構築される。
最後に、2つの枝は発話レベルの感情予測のために融合される。
IEMOCAPとMELDの実験により,提案手法は強いベースラインよりも優れた性能を示し,その有効性を検証した。
関連論文リスト
- Multimodal Emotion Recognition via Bi-directional Cross-Attention and Temporal Modeling [2.8037951156321377]
本稿では,第10回ABAWチャレンジにおける表現課題に対するマルチモーダル感情認識フレームワークを提案する。
本フレームワークは,視覚および音声表現学習のための大規模事前学習モデルを構築し,それらを統合マルチモーダルアーキテクチャに統合する。
ABAW 10th EXPRベンチマークの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-03-12T14:20:29Z) - AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition [35.370240758006936]
マルチモーダル対話感情認識は、テキスト、ビジュアル、オーディオのモダリティを融合することで感情的な手がかりを捉える。
既存のアプローチは、感情的依存のモデリングやマルチモーダル表現の学習において、依然として顕著な制限に悩まされている。
AMB-DSGDN(Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network)を提案する。
論文 参考訳(メタデータ) (2026-03-07T11:23:23Z) - Plug-and-Play Clarifier: A Zero-Shot Multimodal Framework for Egocentric Intent Disambiguation [60.63465682731118]
エゴセントリックなAIエージェントのパフォーマンスは、基本的にマルチモーダルな意図のあいまいさによって制限される。
ゼロショットでモジュラーなフレームワークであるPlug-and-Play Clarifierを導入し、問題を個別に解決可能なサブタスクに分解する。
我々のフレームワークは,小言語モデルの意図的明確化性能を約30%向上させ,より大きな言語モデルとの競争力を高める。
論文 参考訳(メタデータ) (2025-11-12T04:28:14Z) - Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。
先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。
これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文 参考訳(メタデータ) (2025-08-08T09:20:50Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。
MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。
このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文 参考訳(メタデータ) (2025-03-16T19:32:32Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。