論文の概要: A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations
- arxiv url: http://arxiv.org/abs/2310.20494v1
- Date: Tue, 31 Oct 2023 14:33:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 14:43:19.404621
- Title: A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations
- Title(参考訳): 会話におけるマルチモーダル感情認識のための自己拡張型トランスフォーマーモデル
- Authors: Hui Ma, Jian Wang, Hongfei Lin, Bo Zhang, Yijia Zhang, Bo Xu
- Abstract要約: 本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
- 参考スコア(独自算出の注目度): 15.77747948751497
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotion recognition in conversations (ERC), the task of recognizing the
emotion of each utterance in a conversation, is crucial for building empathetic
machines. Existing studies focus mainly on capturing context- and
speaker-sensitive dependencies on the textual modality but ignore the
significance of multimodal information. Different from emotion recognition in
textual conversations, capturing intra- and inter-modal interactions between
utterances, learning weights between different modalities, and enhancing modal
representations play important roles in multimodal ERC. In this paper, we
propose a transformer-based model with self-distillation (SDT) for the task.
The transformer-based model captures intra- and inter-modal interactions by
utilizing intra- and inter-modal transformers, and learns weights between
modalities dynamically by designing a hierarchical gated fusion strategy.
Furthermore, to learn more expressive modal representations, we treat soft
labels of the proposed model as extra training supervision. Specifically, we
introduce self-distillation to transfer knowledge of hard and soft labels from
the proposed model to each modality. Experiments on IEMOCAP and MELD datasets
demonstrate that SDT outperforms previous state-of-the-art baselines.
- Abstract(参考訳): 会話における各発話の感情を認識するタスクである会話における感情認識(ERC)は共感機械の構築に不可欠である。
既存の研究は主に、テクストのモダリティに対する文脈依存と話者依存の依存関係を捉えることに重点を置いているが、マルチモーダル情報の重要性は無視している。
テキスト会話における感情認識と異なり、発話間のモーダル内相互作用、異なるモーダル間の学習重み、モーダル表現の強化はマルチモーダルercにおいて重要な役割を果たす。
本稿では, 自己蒸留(SDT)を用いた変圧器モデルを提案する。
トランスベースモデルでは,モダリティ内およびモダリティ間トランスを利用してモダリティ内およびモダリティ間相互作用をキャプチャし,階層的ゲート融合戦略を設計することにより,モダリティ間の重みを動的に学習する。
さらに,より表現豊かなモーダル表現を学ぶために,提案モデルのソフトラベルを追加のトレーニング監督として扱う。
具体的には,ハードラベルとソフトラベルの知識を提案モデルから各モダリティに移すために,自己蒸留を導入する。
IEMOCAPとMELDデータセットの実験では、SDTが以前の最先端ベースラインより優れていることが示されている。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - DialogueTRM: Exploring the Intra- and Inter-Modal Emotional Behaviors in
the Conversation [20.691806885663848]
そこで我々は,対話トランスフォーマーを提案し,モーダル内およびモーダル間の観点から異なる感情行動について検討する。
モーダル内において,シーケンシャル構造とフィードフォワード構造を簡単に切り替えることのできる新しい階層変換器を構築する。
インターモーダルでは、ニューロンとベクトルの粒度の相互作用を応用した、新しいマルチグラインド・インタラクティブ・フュージョンを構成する。
論文 参考訳(メタデータ) (2020-10-15T10:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。