Fugu-MT 論文翻訳(概要): AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

論文の概要: AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition

arxiv url: http://arxiv.org/abs/2603.10043v1
Date: Sat, 07 Mar 2026 11:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-12 16:22:32.585039
Title: AMB-DSGDN: Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network for Multimodal Emotion Recognition
Title（参考訳）: AMB-DSGDN:マルチモーダル感情認識のための適応モードベース動的セマンティックグラフ微分ネットワーク
Authors: Yunsheng Wang, Yuntao Shou, Yilong Tan, Wei Ai, Tao Meng, Keqin Li,
Abstract要約: マルチモーダル対話感情認識は、テキスト、ビジュアル、オーディオのモダリティを融合することで感情的な手がかりを捉える。既存のアプローチは、感情的依存のモデリングやマルチモーダル表現の学習において、依然として顕著な制限に悩まされている。 AMB-DSGDN(Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network)を提案する。
参考スコア（独自算出の注目度）: 35.370240758006936
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal dialogue emotion recognition captures emotional cues by fusing text, visual, and audio modalities. However, existing approaches still suffer from notable limitations in modeling emotional dependencies and learning multimodal representations. On the one hand, they are unable to effectively filter out redundant or noisy signals within multimodal features, which hinders the accurate capture of the dynamic evolution of emotional states across and within speakers. On the other hand, during multimodal feature learning, dominant modalities tend to overwhelm the fusion process, thereby suppressing the complementary contributions of non-dominant modalities such as speech and vision, ultimately constraining the overall recognition performance. To address these challenges, we propose an Adaptive Modality-Balanced Dynamic Semantic Graph Differential Network (AMB-DSGDN). Concretely, we first construct modality-specific subgraphs for text, speech, and vision, where each modality contains intra-speaker and inter-speaker graphs to capture both self-continuity and cross-speaker emotional dependencies. On top of these subgraphs, we introduce a differential graph attention mechanism, which computes the discrepancy between two sets of attention maps. By explicitly contrasting these attention distributions, the mechanism cancels out shared noise patterns while retaining modality-specific and context-relevant signals, thereby yielding purer and more discriminative emotional representations. In addition, we design an adaptive modality balancing mechanism, which estimates a dropout probability for each modality according to its relative contribution in emotion modeling.
Abstract（参考訳）: マルチモーダル対話感情認識は、テキスト、ビジュアル、オーディオのモダリティを融合することで感情的な手がかりを捉える。しかし、既存のアプローチは、感情的依存のモデリングやマルチモーダル表現の学習において、依然として顕著な制限に悩まされている。一方、マルチモーダルな特徴の中では、冗長信号やノイズ信号を効果的にフィルタリングすることができず、話者間の感情状態のダイナミックな進化を正確に捉えるのを妨げている。一方、マルチモーダル特徴学習においては、支配的なモダリティが融合過程を圧倒する傾向にあり、それによって音声や視覚などの非支配的なモダリティの補完的寄与が抑制され、最終的には全体的な認識性能が制限される。これらの課題に対処するために,適応モードベース動的セマンティックグラフ微分ネットワーク(AMB-DSGDN)を提案する。具体的には、まず、各モータリティに話者内グラフと話者間グラフを含むテキスト、音声、視覚のためのモータリティ特化部分グラフを構築し、自己連続性と話者間の感情的依存の両方をキャプチャする。これらの部分グラフの上に差分グラフアテンション機構を導入し、2組のアテンションマップ間の差分を計算した。これらの注意分布を明示的に対比することにより、このメカニズムは、モダリティ特化信号とコンテキスト関連信号を保持しながら共有ノイズパターンをキャンセルし、より純粋でより差別的な感情表現をもたらす。さらに、感情モデルにおける相対的寄与に基づいて、各モーダルに対するドロップアウト確率を推定する適応的モダリティバランス機構を設計する。

関連論文リスト

Semantic Item Graph Enhancement for Multimodal Recommendation [49.66272783945571]
マルチモーダルレコメンデーションシステムは、商品のマルチモーダル情報を活用することで、パフォーマンスの向上に注目が集まっている。先行する手法は、しばしばモダリティ固有のアイテム・イテム意味グラフを生のモダリティの特徴から構築する。これらのセマンティックグラフは、アイテム間の協調信号のモデリングが不十分ななど、セマンティックな欠陥に悩まされている。
論文参考訳（メタデータ） (2025-08-08T09:20:50Z)
Sync-TVA: A Graph-Attention Framework for Multimodal Emotion Recognition with Cross-Modal Fusion [7.977094562068075]
そこで我々は,モダリティ特異的な動的拡張と構造的クロスモーダル融合を特徴とする,エンドツーエンドのグラフアテンションフレームワークSync-TVAを提案する。本設計では,モダリティごとに動的拡張モジュールを組み込んで,テキスト,音声,視覚的特徴間の意味関係をモデル化する異質なクロスモーダルグラフを構築している。 MELDとIEMOCAPの実験では、特にクラス不均衡条件下では、精度と重み付けされたF1スコアの両方において、最先端モデルに対する一貫した改善が示されている。
論文参考訳（メタデータ） (2025-07-29T00:03:28Z)
VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。 VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文参考訳（メタデータ） (2025-05-05T03:00:51Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
MAVEN: Multi-modal Attention for Valence-Arousal Emotion Network [6.304608172789466]
The proposed Multi-modal Attention for Valence-Arousal Emotion Network (MAVEN) integrates visual, audio, and textual modalities。 MAVENは、モダリティ固有のエンコーダを使用して、同期化されたビデオフレーム、オーディオセグメント、および書き起こしから特徴を抽出する。このアーキテクチャは、会話ビデオにおける感情表現の微妙で過渡的な性質を捉え、現実の状況における感情認識を改善する。
論文参考訳（メタデータ） (2025-03-16T19:32:32Z)
Effective Context Modeling Framework for Emotion Recognition in Conversations [2.7175580940471913]
会話における感情認識(英語: Emotion Recognition in Conversations, ERC)は、会話中の各発話における話者による感情のより深い理解を促進する。最近のグラフニューラルネットワーク(GNN)は、データ関係をキャプチャする上で、その強みを実証している。本稿では,会話中の文脈情報をキャプチャする新しいGNNベースのフレームワークであるConxGNNを提案する。
論文参考訳（メタデータ） (2024-12-21T02:22:06Z)
Multi-modal Speech Emotion Recognition via Feature Distribution Adaptation Network [12.200776612016698]
本稿では,特徴分布適応ネットワーク(Feature Distribution Adapted Network)と呼ばれる新しい深層帰納学習フレームワークを提案する。本手法は,感情の一貫した表現を得るために,深層移動学習戦略を用いて視覚的特徴分布と音声的特徴分布を整列させることを目的とする。
論文参考訳（メタデータ） (2024-10-29T13:13:30Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。