論文の概要: Leveraging CLIP Encoder for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2506.00903v1
- Date: Sun, 01 Jun 2025 08:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.778507
- Title: Leveraging CLIP Encoder for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のためのCLIPエンコーダの活用
- Authors: Yehun Song, Sunyoung Cho,
- Abstract要約: マルチモーダル感情認識(MER)は、言語、音声、視覚などの様々なモダリティからのデータを組み合わせて人間の感情を識別することを目的としている。
本稿では,CLIP(MER-CLIP)に基づくラベルエンコーダ誘導型MERフレームワークを提案する。
本手法では,ラベルをテキスト埋め込みとして扱って意味情報を組み込むラベルエンコーダを導入し,より代表的な感情的特徴を学習する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition (MER) aims to identify human emotions by combining data from various modalities such as language, audio, and vision. Despite the recent advances of MER approaches, the limitations in obtaining extensive datasets impede the improvement of performance. To mitigate this issue, we leverage a Contrastive Language-Image Pre-training (CLIP)-based architecture and its semantic knowledge from massive datasets that aims to enhance the discriminative multimodal representation. We propose a label encoder-guided MER framework based on CLIP (MER-CLIP) to learn emotion-related representations across modalities. Our approach introduces a label encoder that treats labels as text embeddings to incorporate their semantic information, leading to the learning of more representative emotional features. To further exploit label semantics, we devise a cross-modal decoder that aligns each modality to a shared embedding space by sequentially fusing modality features based on emotion-related input from the label encoder. Finally, the label encoder-guided prediction enables generalization across diverse labels by embedding their semantic information as well as word labels. Experimental results show that our method outperforms the state-of-the-art MER methods on the benchmark datasets, CMU-MOSI and CMU-MOSEI.
- Abstract(参考訳): マルチモーダル感情認識(MER)は、言語、音声、視覚などの様々なモダリティからのデータを組み合わせて人間の感情を識別することを目的としている。
MERアプローチの最近の進歩にもかかわらず、広範なデータセットを取得する際の制限は、パフォーマンスの改善を妨げている。
この問題を軽減するために,比較言語-画像事前学習(CLIP)に基づくアーキテクチャと,識別的マルチモーダル表現を強化することを目的とした,膨大なデータセットからのセマンティック知識を活用する。
本稿では,CLIP(MER-CLIP)に基づくラベルエンコーダ誘導型MERフレームワークを提案する。
本手法では,ラベルをテキスト埋め込みとして扱って意味情報を組み込むラベルエンコーダを導入し,より代表的な感情的特徴を学習する。
ラベルセマンティクスをさらに活用するために,ラベルエンコーダからの感情関連入力に基づいて各モーダル特徴を逐次融合することにより,各モーダルを共有埋め込み空間に整列するクロスモーダルデコーダを考案した。
最後に、ラベルエンコーダ誘導予測により、意味情報と単語ラベルを埋め込むことで、多様なラベルをまたいだ一般化が可能となる。
実験の結果,提案手法はベンチマークデータセット,CMU-MOSI,CMU-MOSEIにおいて,最先端のMER法よりも優れていた。
関連論文リスト
- Leveraging Label Potential for Enhanced Multimodal Emotion Recognition [6.725011823614421]
マルチモーダル感情認識(MER)は、感情状態を正確に予測するために様々なモダリティを統合する。
本稿では,この制限を克服するために,ラベル信号誘導マルチモーダル感情認識(LSGMER)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2025-04-07T15:00:34Z) - CARAT: Contrastive Feature Reconstruction and Aggregation for
Multi-Modal Multi-Label Emotion Recognition [18.75994345925282]
マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を識別することを目的としている。
MMERの課題は、異種データから複数のラベルの識別機能を効果的に取得する方法である。
本稿では,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。
論文 参考訳(メタデータ) (2023-12-15T20:58:05Z) - Leveraging Label Information for Multimodal Emotion Recognition [22.318092635089464]
マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。
ラベル情報を利用した新しいMER手法を提案する。
我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
論文 参考訳(メタデータ) (2023-09-05T10:26:32Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition [7.280460748655983]
マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、すべてのラベルに対して同じ表現を学ぶことに焦点を当てていた。
マルチモーダル表現を改良し,各ラベルの識別能力を高めることを目的とした,マルチモーダル音声認識(TAILOR)のための多目的マルチモーダル学習を提案する。
論文 参考訳(メタデータ) (2022-01-15T12:02:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。