論文の概要: Decoupled Hierarchical Distillation for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2602.04260v1
- Date: Wed, 04 Feb 2026 06:49:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.406908
- Title: Decoupled Hierarchical Distillation for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のための非結合型階層的蒸留法
- Authors: Yong Li, Yuanzhi Wang, Yi Ding, Shiqing Zhang, Ke Lu, Cuntai Guan,
- Abstract要約: DHMD(Decoupled Hierarchical Multimodal Distillation)という新しいフレームワークを提案する。
DHMDは各モダリティの特徴を、自己回帰機構を用いて、モダリティ非関連(均一)とモダリティ排他(異種)に分解する。
この階層的蒸留手法は柔軟な知識伝達を可能にし、クロスモーダルな特徴アライメントを効果的に改善する。
- 参考スコア(独自算出の注目度): 33.059410309340606
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Human multimodal emotion recognition (MER) seeks to infer human emotions by integrating information from language, visual, and acoustic modalities. Although existing MER approaches have achieved promising results, they still struggle with inherent multimodal heterogeneities and varying contributions from different modalities. To address these challenges, we propose a novel framework, Decoupled Hierarchical Multimodal Distillation (DHMD). DHMD decouples each modality's features into modality-irrelevant (homogeneous) and modality-exclusive (heterogeneous) components using a self-regression mechanism. The framework employs a two-stage knowledge distillation (KD) strategy: (1) coarse-grained KD via a Graph Distillation Unit (GD-Unit) in each decoupled feature space, where a dynamic graph facilitates adaptive distillation among modalities, and (2) fine-grained KD through a cross-modal dictionary matching mechanism, which aligns semantic granularities across modalities to produce more discriminative MER representations. This hierarchical distillation approach enables flexible knowledge transfer and effectively improves cross-modal feature alignment. Experimental results demonstrate that DHMD consistently outperforms state-of-the-art MER methods, achieving 1.3\%/2.4\% (ACC$_7$), 1.3\%/1.9\% (ACC$_2$) and 1.9\%/1.8\% (F1) relative improvement on CMU-MOSI/CMU-MOSEI dataset, respectively. Meanwhile, visualization results reveal that both the graph edges and dictionary activations in DHMD exhibit meaningful distribution patterns across modality-irrelevant/-exclusive feature spaces.
- Abstract(参考訳): 人間のマルチモーダル感情認識(MER)は、言語、視覚、音響のモダリティからの情報を統合することで人間の感情を推測する。
既存のMERアプローチは有望な結果を得たが、それらは本質的に多モードの不均一性と、異なるモダリティからの様々な貢献に苦慮している。
これらの課題に対処するため、我々はDecoupled Hierarchical Multimodal Distillation (DHMD)という新しいフレームワークを提案する。
DHMDは各モダリティの特徴を、自己回帰機構を用いて、モダリティ非関連(均一)とモダリティ排他(異種)に分解する。
本フレームワークは,(1)グラフ蒸留ユニット (GD-Unit) による2段階の知識蒸留 (KD) 戦略を用いており,(1) 動的グラフはモダリティ間の適応蒸留を促進する。
この階層的蒸留手法は柔軟な知識伝達を可能にし、クロスモーダルな特徴アライメントを効果的に改善する。
DHMDは、CMU-MOSI/CMU-MOSEIデータセットに対して、それぞれ1.3\%/2.4\%(ACC$_7$)と1.3\%/1.9\%(ACC$_2$)と1.9\%/1.8\%(F1)の相対的な改善を達成し、最先端のMER手法を一貫して上回ることを示した。
一方,DHMDにおけるグラフエッジと辞書アクティベーションは,モダリティ非関連・排他的特徴空間に有意な分布パターンを示す。
関連論文リスト
- Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process [55.91649771370862]
ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-23T16:53:24Z) - GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。
本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。
IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文 参考訳(メタデータ) (2025-06-01T07:07:02Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Decoupled Multimodal Distilling for Emotion Recognition [21.685394946415993]
本稿では, フレキシブルかつ適応的なクロスモーダルな知識蒸留を容易にするデカップリング型マルチモーダル蒸留(DMD)手法を提案する。
各モダリティの表現は、自己回帰的な方法で、モダリティ非関係/排他的空間(modality-irrelevant/exclusive space)という2つの部分に分けられる。
実験結果からDMDは最先端のMER法よりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-03-24T04:54:44Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。