論文の概要: Exploring Attention Mechanisms for Multimodal Emotion Recognition in an
Emergency Call Center Corpus
- arxiv url: http://arxiv.org/abs/2306.07115v1
- Date: Mon, 12 Jun 2023 13:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:31:02.024415
- Title: Exploring Attention Mechanisms for Multimodal Emotion Recognition in an
Emergency Call Center Corpus
- Title(参考訳): 救急コールセンターにおけるマルチモーダル感情認識のための注意機構の探索
- Authors: Th\'eo Deschamps-Berger, Lori Lamel, Laurence Devillers
- Abstract要約: 本稿では、感情認識のためのモダリティ特化モデルの融合戦略について検討する。
多モード核融合は、いずれかの単一モダリティに対して絶対的な4-9%の利得をもたらすことを示す。
また,実生活のCEMOコーパスに対して,音声成分はテキスト情報よりも感情的な情報を符号化することが示唆された。
- 参考スコア(独自算出の注目度): 4.256247917850421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emotion detection technology to enhance human decision-making is an
important research issue for real-world applications, but real-life emotion
datasets are relatively rare and small. The experiments conducted in this paper
use the CEMO, which was collected in a French emergency call center. Two
pre-trained models based on speech and text were fine-tuned for speech emotion
recognition. Using pre-trained Transformer encoders mitigates our data's
limited and sparse nature. This paper explores the different fusion strategies
of these modality-specific models. In particular, fusions with and without
cross-attention mechanisms were tested to gather the most relevant information
from both the speech and text encoders. We show that multimodal fusion brings
an absolute gain of 4-9% with respect to either single modality and that the
Symmetric multi-headed cross-attention mechanism performed better than late
classical fusion approaches. Our experiments also suggest that for the
real-life CEMO corpus, the audio component encodes more emotive information
than the textual one.
- Abstract(参考訳): 人間の意思決定を強化する感情検出技術は、現実世界のアプリケーションにとって重要な研究課題であるが、現実の感情データセットは比較的稀で小さい。
本稿では,フランスの救急コールセンターで収集したCEMOを用いて実験を行った。
音声とテキストに基づく2つの事前学習モデルを用いて,音声感情認識のための微調整を行った。
トレーニング済みのTransformerエンコーダを使用することで、データの制限とスパースの性質が軽減される。
本稿では,これらのモダリティ特化モデルの融合戦略について検討する。
特に,音声エンコーダとテキストエンコーダの両方から最も関連性の高い情報を収集するために,クロスアテンション機構と無関係の融合試験を行った。
マルチモーダル融合は,単一モダリティのいずれにおいても絶対的に4-9%の利得をもたらし,対称多頭クロス・アテンション機構は後期古典的核融合のアプローチよりも優れた性能を示した。
また,実生活のcemoコーパスでは,音声成分がテキストよりも感情的な情報を符号化することを示す。
関連論文リスト
- AMPLE: Emotion-Aware Multimodal Fusion Prompt Learning for Fake News Detection [0.1499944454332829]
本稿では,Emotion-textbfAware textbfMultimodal Fusion textbfPrompt textbfLtextbfEarning (textbfAMPLE) フレームワークについて述べる。
このフレームワークは感情分析ツールを利用してテキストから感情要素を抽出する。
次に、マルチヘッドクロスアテンション(MCA)機構と類似性を考慮した融合手法を用いて、マルチモーダルデータを統合する。
論文 参考訳(メタデータ) (2024-10-21T02:19:24Z) - Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。
本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文 参考訳(メタデータ) (2024-10-04T18:42:09Z) - Enhancing Emotion Recognition in Conversation through Emotional Cross-Modal Fusion and Inter-class Contrastive Learning [40.101313334772016]
会話における感情認識の目的は、文脈情報に基づいて発話の感情カテゴリーを特定することである。
従来のERC法は、クロスモーダル核融合のための単純な接続に依存していた。
本稿では,ベクトル接続に基づくモーダル融合感情予測ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-28T07:22:30Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - A Low-rank Matching Attention based Cross-modal Feature Fusion Method for Conversational Emotion Recognition [54.44337276044968]
低ランクマッチング注意法(LMAM)と呼ばれる新しい軽量クロスモーダル機能融合法を提案する。
LMAMは、会話における文脈的感情的意味情報を効果的に捉え、自己認識機構によって引き起こされる二次的複雑性問題を緩和する。
実験により, LMAMの軽量化を前提として, 他の一般的な相互拡散法と比較し, LMAMの優位性を検証した。
論文 参考訳(メタデータ) (2023-06-16T16:02:44Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。