論文の概要: Leveraging Label Information for Multimodal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2309.02106v1
- Date: Tue, 5 Sep 2023 10:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-06 15:22:18.436715
- Title: Leveraging Label Information for Multimodal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のためのラベル情報活用
- Authors: Peiying Wang, Sunlu Zeng, Junqing Chen, Lu Fan, Meng Chen, Youzheng
Wu, Xiaodong He
- Abstract要約: マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。
ラベル情報を利用した新しいMER手法を提案する。
我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
- 参考スコア(独自算出の注目度): 22.318092635089464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal emotion recognition (MER) aims to detect the emotional status of a
given expression by combining the speech and text information. Intuitively,
label information should be capable of helping the model locate the salient
tokens/frames relevant to the specific emotion, which finally facilitates the
MER task. Inspired by this, we propose a novel approach for MER by leveraging
label information. Specifically, we first obtain the representative label
embeddings for both text and speech modalities, then learn the label-enhanced
text/speech representations for each utterance via label-token and label-frame
interactions. Finally, we devise a novel label-guided attentive fusion module
to fuse the label-aware text and speech representations for emotion
classification. Extensive experiments were conducted on the public IEMOCAP
dataset, and experimental results demonstrate that our proposed approach
outperforms existing baselines and achieves new state-of-the-art performance.
- Abstract(参考訳): マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせて、与えられた表現の感情状態を検出することを目的とする。
直感的には、ラベル情報は、モデルが特定の感情に関連する適切なトークンやフレームを見つけるのに役立つものでなければならない。
そこで本研究では,ラベル情報を利用した新しいMER手法を提案する。
具体的には、まず、テキストと音声のモダリティの両方に対する代表ラベルの埋め込みを取得し、ラベルとトークン、およびラベルとフレームの相互作用を通じて各発話に対するラベル付きテキスト/音声表現を学習する。
最後に,感情分類のためのラベル認識テキストと音声表現を融合させる新しいラベル誘導注意融合モジュールを考案する。
公開iemocapデータセットで広範な実験を行い,提案手法が既存のベースラインを上回り,新たな最先端性能を実現することを実証した。
関連論文リスト
- PVLR: Prompt-driven Visual-Linguistic Representation Learning for
Multi-Label Image Recognition [47.11517266162346]
本稿では,言語的モダリティの能力をよりよく活用するための,プロンプト駆動型視覚言語表現学習フレームワークを提案する。
従来の一方向融合とは対照的に,テキストと視覚的特徴の双方向相互作用を可能にするDMA(Dual-Modal Attention)を導入する。
論文 参考訳(メタデータ) (2024-01-31T14:39:11Z) - HuBERTopic: Enhancing Semantic Representation of HuBERT through
Self-supervision Utilizing Topic Model [62.995175485416]
本稿では,HuBERTのセマンティック表現を豊かにするための新しいアプローチを提案する。
トピックラベルを教師として使用することにより、HuBERTに補助的なトピック分類タスクを追加する。
実験の結果,本手法は,ほとんどのタスクにおいて,ベースラインと同等あるいは優れた性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-10-06T02:19:09Z) - LanSER: Language-Model Supported Speech Emotion Recognition [25.597250907836152]
本稿では,学習済みの大規模言語モデルを用いて弱い感情ラベルを推定することにより,ラベルなしデータの利用を可能にするLanSERを提案する。
分類学に制約された弱いラベルを推定するために、自動音声認識により抽出された音声の書き起こしに対して、最も深いスコアを持つ感情ラベルを選択するテキスト・エンタテインメント・アプローチを用いる。
実験結果から, 従来のSERデータセットのベースラインモデルでは, 精度が向上し, ラベル効率が向上した。
論文 参考訳(メタデータ) (2023-09-07T19:21:08Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - IDEA: Interactive DoublE Attentions from Label Embedding for Text
Classification [4.342189319523322]
そこで,本研究では,シム BERT による新しいモデル構造と IDEA という対話型ダブルアテンションを提案し,テキストとラベル名の情報交換を行う。
提案手法は, ラベルテキストを用いた最先端の手法よりも, より安定した結果が得られている。
論文 参考訳(メタデータ) (2022-09-23T04:50:47Z) - Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition [7.280460748655983]
マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、すべてのラベルに対して同じ表現を学ぶことに焦点を当てていた。
マルチモーダル表現を改良し,各ラベルの識別能力を高めることを目的とした,マルチモーダル音声認識(TAILOR)のための多目的マルチモーダル学習を提案する。
論文 参考訳(メタデータ) (2022-01-15T12:02:28Z) - Enhanced Language Representation with Label Knowledge for Span
Extraction [2.4909170697740963]
ラベル知識を統合するための新しいパラダイムを導入し、ラベル知識をテキスト表現に明示的にかつ効率的に統合する新しいモデルを提案する。
具体的には、テキストとラベルアノテーションを独立してエンコードし、ラベル知識をテキスト表現と精巧に設計されたセマンティックス融合モジュールに統合する。
我々は,フラットNER,ネストNER,イベント検出の3つの典型的なスパン抽出タスクについて広範な実験を行った。
提案手法は4つのベンチマークで最先端性能を実現し,2)QA形式化パラダイムと比較して,トレーニング時間と推論時間を平均で76%,77%削減する。
論文 参考訳(メタデータ) (2021-11-01T12:21:05Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。