論文の概要: Dual-branch Graph Domain Adaptation for Cross-scenario Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2603.26840v1
- Date: Fri, 27 Mar 2026 08:21:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.659827
- Title: Dual-branch Graph Domain Adaptation for Cross-scenario Multi-modal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のためのデュアルブランチグラフ領域適応法
- Authors: Yuntao Shou, Jun Zhou, Tao Meng, Wei Ai, Keqin Li,
- Abstract要約: 会話におけるマルチモーダル感情認識(MERC)は、テキスト、音声、視覚的手がかりを通じて、多ターン対話における話者の感情状態を予測することを目的としている。
既存のMERCメソッドは、一般的にクロスシナリオのバリエーションを無視し、ソースドメインでトレーニングされたモデルを未確認のターゲットドメインに転送する能力を制限する。
本稿では,マルチモーダル感情認識のためのDual-branch Graph Adaptation framework(DGDA)を提案する。
- 参考スコア(独自算出の注目度): 43.17664347937779
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Emotion Recognition in Conversations (MERC) aims to predict speakers' emotional states in multi-turn dialogues through text, audio, and visual cues. In real-world settings, conversation scenarios differ significantly in speakers, topics, styles, and noise levels. Existing MERC methods generally neglect these cross-scenario variations, limiting their ability to transfer models trained on a source domain to unseen target domains. To address this issue, we propose a Dual-branch Graph Domain Adaptation framework (DGDA) for multimodal emotion recognition under cross-scenario conditions. We first construct an emotion interaction graph to characterize complex emotional dependencies among utterances. A dual-branch encoder, consisting of a hypergraph neural network (HGNN) and a path neural network (PathNN), is then designed to explicitly model multivariate relationships and implicitly capture global dependencies. To enable out-of-domain generalization, a domain adversarial discriminator is introduced to learn invariant representations across domains. Furthermore, a regularization loss is incorporated to suppress the negative influence of noisy labels. To the best of our knowledge, DGDA is the first MERC framework that jointly addresses domain shift and label noise. Theoretical analysis provides tighter generalization bounds, and extensive experiments on IEMOCAP and MELD demonstrate that DGDA consistently outperforms strong baselines and better adapts to cross-scenario conversations. Our code is available at https://github.com/Xudmm1239439/DGDA-Net.
- Abstract(参考訳): 会話におけるマルチモーダル感情認識(MERC)は、テキスト、音声、視覚的手がかりを通じて、多ターン対話における話者の感情状態を予測することを目的としている。
現実世界の設定では、会話のシナリオは話者、トピック、スタイル、ノイズレベルによって大きく異なる。
既存のMERCメソッドは、一般的にこれらのクロスシナリオのバリエーションを無視し、ソースドメインでトレーニングされたモデルを未確認のターゲットドメインに転送する能力を制限する。
この問題に対処するために,クロスシナリオ条件下でのマルチモーダル感情認識のためのDGDA(Dual-branch Graph Domain Adaptation framework)を提案する。
まず、発話間の複雑な感情依存を特徴付ける感情相互作用グラフを構築する。
ハイパーグラフニューラルネットワーク(HGNN)とパスニューラルネットワーク(PathNN)で構成されるデュアルブランチエンコーダは、多変量関係を明示的にモデル化し、グローバルな依存関係を暗黙的にキャプチャするように設計されている。
ドメイン外一般化を可能にするために、ドメイン間の不変表現を学習するためにドメイン逆微分器が導入された。
さらに、ノイズラベルの負の影響を抑制するために正規化損失が組み込まれている。
我々の知る限りでは、DGDAはドメインシフトとラベルノイズに共同で対処する最初のMERCフレームワークです。
理論解析はより厳密な一般化境界を提供し、IEMOCAPとMELDに関する広範な実験により、DGDAは強いベースラインを一貫して上回り、クロスシナリオの会話に適応することを示した。
私たちのコードはhttps://github.com/Xudmm1239439/DGDA-Netで利用可能です。
関連論文リスト
- Knowledge-Aligned Counterfactual-Enhancement Diffusion Perception for Unsupervised Cross-Domain Visual Emotion Recognition [23.396309161898465]
Unsupervised Cross-Domain Visual Emotion Recognition (UCDVER) タスクは、ソースドメインから低リソースターゲットドメインへの視覚的感情認識を一般化することを目的としている。
これらの問題を緩和するため,我々はKCDP(Knowledge-aligned Counterfactual-Enhancement Diffusion Perception)フレームワークを提案する。
本モデルでは,SOTA VERモデルであるTGCA-PVTよりも12%改善した。
論文 参考訳(メタデータ) (2025-05-26T08:50:30Z) - Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。
最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。
本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文 参考訳(メタデータ) (2024-12-21T02:22:06Z) - Dynamic Graph Neural ODE Network for Multi-modal Emotion Recognition in Conversation [14.158939954453933]
会話におけるマルチモーダル感情認識のための動的グラフニューラル正規微分方程式ネットワーク(DGODE)を提案する。
提案したDGODEは、感情の動的変化を組み合わせ、話者の感情の時間的依存を捉える。
2つの一般公開されたマルチモーダル感情認識データセットの実験により、提案したDGODEモデルは、様々なベースラインと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-04T01:07:59Z) - PanoSent: A Panoptic Sextuple Extraction Benchmark for Multimodal Conversational Aspect-based Sentiment Analysis [74.41260927676747]
本稿では,マルチモーダル対話感分析(ABSA)を導入することでギャップを埋める。
タスクをベンチマークするために、手動と自動の両方で注釈付けされたデータセットであるPanoSentを構築し、高品質、大規模、マルチモーダル、マルチ言語主義、マルチシナリオを特徴とし、暗黙の感情要素と明示的な感情要素の両方をカバーする。
課題を効果的に解決するために,新しい多モーダルな大規模言語モデル(すなわちSentica)とパラフレーズベースの検証機構とともに,新しい感覚の連鎖推論フレームワークを考案した。
論文 参考訳(メタデータ) (2024-08-18T13:51:01Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - PoE: a Panel of Experts for Generalized Automatic Dialogue Assessment [58.46761798403072]
モデルベース自動対話評価基準(ADEM)は,複数の領域にわたって良好に機能することが期待される。
大きな進歩にもかかわらず、ある領域でうまく機能するADEMは必ずしも他の領域に一般化するとは限らない。
本稿では,共有トランスフォーマーエンコーダと軽量アダプタの集合からなるPanel of Experts (PoE)ネットワークを提案する。
論文 参考訳(メタデータ) (2022-12-18T02:26:50Z) - Mix and Reason: Reasoning over Semantic Topology with Data Mixing for
Domain Generalization [48.90173060487124]
ドメイン一般化(DG)は、複数のソースドメインから見えないターゲットドメインへの学習マシンを可能にする。
mire は2つのキーコンポーネント、すなわち Category-Aware Data Mixing (CDM) と Adaptive Semantic Topology Refinement (ASTR) で構成されている。
複数のDGベンチマーク実験により,提案法の有効性とロバスト性を検証した。
論文 参考訳(メタデータ) (2022-10-14T06:52:34Z) - Emotional Semantics-Preserved and Feature-Aligned CycleGAN for Visual
Emotion Adaptation [85.20533077846606]
教師なしドメイン適応(UDA)は、あるラベル付きソースドメインで訓練されたモデルを別のラベル付きターゲットドメインに転送する問題を研究する。
本稿では,感情分布学習と支配的感情分類の両面での視覚的感情分析におけるUDAに着目した。
本稿では,CycleEmotionGAN++と呼ばれる,エンドツーエンドのサイクル整合対向モデルを提案する。
論文 参考訳(メタデータ) (2020-11-25T01:31:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。