論文の概要: HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning
- arxiv url: http://arxiv.org/abs/2507.06821v2
- Date: Thu, 10 Jul 2025 02:58:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 12:24:00.094734
- Title: HeLo: Heterogeneous Multi-Modal Fusion with Label Correlation for Emotion Distribution Learning
- Title(参考訳): HeLo:感情分布学習のためのラベル相関を用いた異種多モード融合
- Authors: Chuhang Zheng, Chunwei Tian, Jie Wen, Daoqiang Zhang, Qi Zhu,
- Abstract要約: マルチモーダル感情分布学習フレームワークHeLoを提案し,多モーダル感情データにおける不均一性と相補的情報について検討する。
2つの公開データセットに対する実験結果から,感情分布学習における提案手法の優位性を示した。
- 参考スコア(独自算出の注目度): 25.95933218051548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal emotion recognition has garnered increasing attention as it plays a significant role in human-computer interaction (HCI) in recent years. Since different discrete emotions may exist at the same time, compared with single-class emotion recognition, emotion distribution learning (EDL) that identifies a mixture of basic emotions has gradually emerged as a trend. However, existing EDL methods face challenges in mining the heterogeneity among multiple modalities. Besides, rich semantic correlations across arbitrary basic emotions are not fully exploited. In this paper, we propose a multi-modal emotion distribution learning framework, named HeLo, aimed at fully exploring the heterogeneity and complementary information in multi-modal emotional data and label correlation within mixed basic emotions. Specifically, we first adopt cross-attention to effectively fuse the physiological data. Then, an optimal transport (OT)-based heterogeneity mining module is devised to mine the interaction and heterogeneity between the physiological and behavioral representations. To facilitate label correlation learning, we introduce a learnable label embedding optimized by correlation matrix alignment. Finally, the learnable label embeddings and label correlation matrices are integrated with the multi-modal representations through a novel label correlation-driven cross-attention mechanism for accurate emotion distribution learning. Experimental results on two publicly available datasets demonstrate the superiority of our proposed method in emotion distribution learning.
- Abstract(参考訳): 近年,ヒューマン・コンピュータ・インタラクション(HCI)において,マルチモーダルな感情認識が注目を集めている。
単クラス感情認識と比較して、異なる個別感情が同時に存在する可能性があるため、基本的な感情の混合を識別する感情分布学習(EDL)がトレンドとして徐々に現れてきた。
しかし、既存のEDL法は、複数のモード間の不均一性をマイニングする際の課題に直面している。
さらに、任意の基本的な感情間のリッチなセマンティックな相関は、完全には利用されない。
本稿では,マルチモーダル感情分布学習フレームワークHeLoを提案する。多モーダル感情データにおける不均一性と相補的情報の探索と,混合基本感情におけるラベル相関について述べる。
具体的には、まずクロスアテンションを用いて生理データを効果的に融合する。
次に、最適輸送(OT)に基づく不均一採掘モジュールを設計し、生理的および行動的表現間の相互作用と不均一性をマイニングする。
ラベル相関学習を容易にするために,相関行列アライメントによって最適化された学習可能なラベル埋め込みを導入する。
最後に、学習可能なラベル埋め込みとラベル相関行列を、正確な感情分布学習のための新しいラベル相関駆動型クロスアテンション機構により、マルチモーダル表現に統合する。
2つの公開データセットに対する実験結果から,感情分布学習における提案手法の優位性を示した。
関連論文リスト
- Disentangle Identity, Cooperate Emotion: Correlation-Aware Emotional Talking Portrait Generation [63.94836524433559]
DICE-Talkは、感情と同一性を切り離し、類似した特徴を持つ感情を協調するフレームワークである。
我々は、モーダル・アテンションを通して、音声と視覚の感情の手がかりを共同でモデル化するアンタングル型感情埋め込み装置を開発した。
次に,学習可能な感情バンクを用いた相関強化感情調和モジュールを提案する。
第3に、拡散過程における感情の一貫性を強制する感情識別目標を設計する。
論文 参考訳(メタデータ) (2025-04-25T05:28:21Z) - Hierarchical Hypercomplex Network for Multimodal Emotion Recognition [9.54382727022316]
相関関係をフルに捉えるために,階層的な学習構造を持つ完全超複雑ネットワークを導入する。
提案アーキテクチャは感情認識のためのMAHNOB-HCIデータセットの最先端モデルを上回る。
論文 参考訳(メタデータ) (2024-09-13T21:07:49Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - A Hierarchical Regression Chain Framework for Affective Vocal Burst
Recognition [72.36055502078193]
本稿では,声帯からの感情認識のための連鎖回帰モデルに基づく階層的枠組みを提案する。
データスパシティの課題に対処するため、レイヤワイドおよび時間アグリゲーションモジュールを備えた自己教師付き学習(SSL)表現も使用しています。
提案されたシステムは、ACII Affective Vocal Burst (A-VB) Challenge 2022に参加し、「TWO」および「CULTURE」タスクで第1位となった。
論文 参考訳(メタデータ) (2023-03-14T16:08:45Z) - Seeking Subjectivity in Visual Emotion Distribution Learning [93.96205258496697]
視覚感情分析(VEA)は、人々の感情を異なる視覚刺激に向けて予測することを目的としている。
既存の手法では、集団投票プロセスにおいて固有の主観性を無視して、統合されたネットワークにおける視覚的感情分布を予測することが多い。
視覚的感情分布の主観性を調べるために,新しいテキストサブジェクティビティ評価ネットワーク(SAMNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T02:20:03Z) - Attentive Cross-modal Connections for Deep Multimodal Wearable-based
Emotion Recognition [7.559720049837459]
本稿では、畳み込みニューラルネットワーク間で情報を共有するための、新しい注意深いクロスモーダル接続を提案する。
具体的には、EDAとECGの中間表現を共有することにより、感情分類を改善する。
実験の結果,提案手法は強いマルチモーダル表現を学習し,多くのベースライン法より優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-04T18:40:32Z) - Label Distribution Amendment with Emotional Semantic Correlations for
Facial Expression Recognition [69.18918567657757]
意味空間における表現間の相関を利用して,各顔画像のラベル分布を補正する手法を提案する。
各画像のセマンティックグラフとタスククラス関連グラフを比較することにより、そのラベル分布の信頼性を評価する。
実験により,提案手法は最先端手法と比較した場合よりも有効であることが示された。
論文 参考訳(メタデータ) (2021-07-23T07:46:14Z) - A Circular-Structured Representation for Visual Emotion Distribution
Learning [82.89776298753661]
視覚的感情分布学習に先立つ知識を活用するために,身近な円形構造表現を提案する。
具体的には、まず感情圏を構築し、その内にある感情状態を統一する。
提案した感情圏では、各感情分布は3つの属性で定義される感情ベクトルで表される。
論文 参考訳(メタデータ) (2021-06-23T14:53:27Z) - EmoGraph: Capturing Emotion Correlations using Graph Networks [71.53159402053392]
グラフネットワークを通じて異なる感情間の依存関係をキャプチャするEmoGraphを提案する。
EmoGraphは特にマクロF1において、強いベースラインを上回ります。
キャプチャーされた感情相関は、シングルラベルの分類作業にも有用であることを示す実験である。
論文 参考訳(メタデータ) (2020-08-21T08:59:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。