論文の概要: TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation
- arxiv url: http://arxiv.org/abs/2401.12987v2
- Date: Sun, 31 Mar 2024 09:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-02 14:25:45.402026
- Title: TelME: Teacher-leading Multimodal Fusion Network for Emotion Recognition in Conversation
- Title(参考訳): TelME:会話における感情認識のための教師主導型マルチモーダルフュージョンネットワーク
- Authors: Taeyang Yun, Hyunkuk Lim, Jeonghwan Lee, Min Song,
- Abstract要約: TelMEは、教師として働く言語モデルから非言語学生に情報を伝達するために、クロスモーダルな知識蒸留を取り入れている。
次に、学生ネットワークが教師を支援するシフト・フュージョン・アプローチを用いて、マルチモーダルな特徴を組み合わせる。
- 参考スコア(独自算出の注目度): 0.78452977096722
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Emotion Recognition in Conversation (ERC) plays a crucial role in enabling dialogue systems to effectively respond to user requests. The emotions in a conversation can be identified by the representations from various modalities, such as audio, visual, and text. However, due to the weak contribution of non-verbal modalities to recognize emotions, multimodal ERC has always been considered a challenging task. In this paper, we propose Teacher-leading Multimodal fusion network for ERC (TelME). TelME incorporates cross-modal knowledge distillation to transfer information from a language model acting as the teacher to the non-verbal students, thereby optimizing the efficacy of the weak modalities. We then combine multimodal features using a shifting fusion approach in which student networks support the teacher. TelME achieves state-of-the-art performance in MELD, a multi-speaker conversation dataset for ERC. Finally, we demonstrate the effectiveness of our components through additional experiments.
- Abstract(参考訳): 会話における感情認識(Emotion Recognition in Conversation、ERC)は、対話システムがユーザの要求に効果的に対応できるようにする上で重要な役割を担っている。
会話中の感情は、音声、視覚、テキストなどの様々なモダリティの表現によって識別することができる。
しかし、感情を認識するための非言語的モダリティの弱い貢献により、マルチモーダルERCは常に困難な課題とみなされてきた。
本稿では,ERC(TelME)のための教師主導型マルチモーダル核融合ネットワークを提案する。
TelMEは、教師として働く言語モデルから非言語学生に情報を伝達するために、クロスモーダルな知識蒸留を取り入れ、弱いモダリティの有効性を最適化する。
次に、学生ネットワークが教師を支援するシフト・フュージョン・アプローチを用いて、マルチモーダルな特徴を組み合わせる。
TelMEは、ERCのためのマルチ話者会話データセットであるMELDで最先端のパフォーマンスを達成する。
最後に、追加実験により、コンポーネントの有効性を実証する。
関連論文リスト
- Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - MM-TTS: A Unified Framework for Multimodal, Prompt-Induced Emotional Text-to-Speech Synthesis [70.06396781553191]
MM-TTS(Multimodal Emotional Text-to-Speech System)は、複数のモーダルからの感情的手がかりを利用して、高表現的で感情的に共鳴する音声を生成する統合フレームワークである。
Emotion Prompt Alignment Module (EP-Align),Emotion Embedding-induced TTS (EMI-TTS),Emotion Embedding-induced TTS (Emotion Embedding-induced TTS) の2つの主要なコンポーネントで構成されている。
論文 参考訳(メタデータ) (2024-04-29T03:19:39Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition [34.24557248359872]
会話における感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク(CFN-ESA)を提案する。
CFN-ESAは、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)からなる。
論文 参考訳(メタデータ) (2023-07-28T09:29:42Z) - MFSN: Multi-perspective Fusion Search Network For Pre-training Knowledge in Speech Emotion Recognition [18.38506185117551]
音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。
我々は,Multi-perspective Fusion Search Network (MFSN)と呼ばれる,SERにおける知識の事前学習のための新しいフレームワークを提案する。
包括性を考慮して、音声知識をテキスト関連感情コンテンツ(TEC)と音声関連感情コンテンツ(SEC)に分割する。
論文 参考訳(メタデータ) (2023-06-12T16:40:07Z) - SI-LSTM: Speaker Hybrid Long-short Term Memory and Cross Modal Attention
for Emotion Recognition in Conversation [16.505046191280634]
会話における感情認識(ERC)は、インテリジェントヘルスケア、会話のための人工知能、チャット履歴に対する意見マイニングなど、さまざまなアプリケーションにとって極めて重要である。
ERCの要点は、会話全体を通して、相互モダリティと相互時間相互作用の両方をモデル化することである。
従来の方法では,会話の時系列情報を学習する一方で,会話における各話者の異なる感情状態を追跡する能力が欠如している。
論文 参考訳(メタデータ) (2023-05-04T10:13:15Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - MMER: Multimodal Multi-task Learning for Speech Emotion Recognition [48.32879363033598]
MMERは,音声認識のためのマルチモーダルマルチタスク学習手法である。
実際に、MMERはIEMOCAPベンチマークのベースラインと最先端のパフォーマンスをすべて達成します。
論文 参考訳(メタデータ) (2022-03-31T04:51:32Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - An Attribute-Aligned Strategy for Learning Speech Representation [57.891727280493015]
属性選択機構によってこれらの問題に柔軟に対処できる音声表現を導出する属性整合学習戦略を提案する。
具体的には、音声表現を属性依存ノードに分解する層式表現可変オートエンコーダ(LR-VAE)を提案する。
提案手法は,IDのないSER上での競合性能と,無感情SV上でのより良い性能を実現する。
論文 参考訳(メタデータ) (2021-06-05T06:19:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。