論文の概要: Exploring Attention Mechanisms for Multimodal Emotion Recognition in an
Emergency Call Center Corpus
- arxiv url: http://arxiv.org/abs/2306.07115v1
- Date: Mon, 12 Jun 2023 13:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 14:31:02.024415
- Title: Exploring Attention Mechanisms for Multimodal Emotion Recognition in an
Emergency Call Center Corpus
- Title(参考訳): 救急コールセンターにおけるマルチモーダル感情認識のための注意機構の探索
- Authors: Th\'eo Deschamps-Berger, Lori Lamel, Laurence Devillers
- Abstract要約: 本稿では、感情認識のためのモダリティ特化モデルの融合戦略について検討する。
多モード核融合は、いずれかの単一モダリティに対して絶対的な4-9%の利得をもたらすことを示す。
また,実生活のCEMOコーパスに対して,音声成分はテキスト情報よりも感情的な情報を符号化することが示唆された。
- 参考スコア(独自算出の注目度): 4.256247917850421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emotion detection technology to enhance human decision-making is an
important research issue for real-world applications, but real-life emotion
datasets are relatively rare and small. The experiments conducted in this paper
use the CEMO, which was collected in a French emergency call center. Two
pre-trained models based on speech and text were fine-tuned for speech emotion
recognition. Using pre-trained Transformer encoders mitigates our data's
limited and sparse nature. This paper explores the different fusion strategies
of these modality-specific models. In particular, fusions with and without
cross-attention mechanisms were tested to gather the most relevant information
from both the speech and text encoders. We show that multimodal fusion brings
an absolute gain of 4-9% with respect to either single modality and that the
Symmetric multi-headed cross-attention mechanism performed better than late
classical fusion approaches. Our experiments also suggest that for the
real-life CEMO corpus, the audio component encodes more emotive information
than the textual one.
- Abstract(参考訳): 人間の意思決定を強化する感情検出技術は、現実世界のアプリケーションにとって重要な研究課題であるが、現実の感情データセットは比較的稀で小さい。
本稿では,フランスの救急コールセンターで収集したCEMOを用いて実験を行った。
音声とテキストに基づく2つの事前学習モデルを用いて,音声感情認識のための微調整を行った。
トレーニング済みのTransformerエンコーダを使用することで、データの制限とスパースの性質が軽減される。
本稿では,これらのモダリティ特化モデルの融合戦略について検討する。
特に,音声エンコーダとテキストエンコーダの両方から最も関連性の高い情報を収集するために,クロスアテンション機構と無関係の融合試験を行った。
マルチモーダル融合は,単一モダリティのいずれにおいても絶対的に4-9%の利得をもたらし,対称多頭クロス・アテンション機構は後期古典的核融合のアプローチよりも優れた性能を示した。
また,実生活のcemoコーパスでは,音声成分がテキストよりも感情的な情報を符号化することを示す。
関連論文リスト
- Multimodal Prompt Transformer with Hybrid Contrastive Learning for
Emotion Recognition in Conversation [9.817888267356716]
会話におけるマルチモーダル感情認識(ERC)は2つの問題に直面している。
表現能力の強いモダリティに対して深部感情の手がかり抽出を行った。
特徴フィルタは、表現能力の弱いモダリティのためのマルチモーダルプロンプト情報として設計された。
MPTは、Transformerの各アテンション層にマルチモーダル融合情報を埋め込む。
論文 参考訳(メタデータ) (2023-10-04T13:54:46Z) - EmotionIC: Emotional Inertia and Contagion-Driven Dependency Modeling
for Emotion Recognition in Conversation [37.41082775317849]
情緒的慣性・伝染(Emotional Inertia and Contagion, EmotionIC)による依存モデリングの新しいアプローチを提案する。
EmotionICは3つの主要コンポーネントから構成されており、Identity Masked Multi-Head Attention (IMMHA), Dialogue-based Gated Recurrent Unit (DiaGRU), Skip-chain Random Field (SkipCRF)である。
論文 参考訳(メタデータ) (2023-03-20T13:58:35Z) - Multimodal Emotion Recognition with Modality-Pairwise Unsupervised
Contrastive Loss [80.79641247882012]
マルチモーダル感情認識(MER)のための教師なし特徴学習に着目した。
個別の感情を考慮し、モダリティテキスト、音声、視覚が使用される。
本手法は, 対のモダリティ間のコントラスト損失に基づくもので, MER文学における最初の試みである。
論文 参考訳(メタデータ) (2022-07-23T10:11:24Z) - M2FNet: Multi-modal Fusion Network for Emotion Recognition in
Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。
マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。
提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文 参考訳(メタデータ) (2022-06-05T14:18:58Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Multimodal Emotion Recognition using Transfer Learning from Speaker
Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。
本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文 参考訳(メタデータ) (2022-02-16T00:23:42Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal
Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。
従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。
提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文 参考訳(メタデータ) (2021-10-27T09:57:00Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - Smoothing Dialogue States for Open Conversational Machine Reading [70.83783364292438]
本稿では,2つの対話状態を1つのデコーダとブリッジ決定と質問生成でスムーズにすることで,効果的なゲーティング戦略を提案する。
OR-ShARCデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2021-08-28T08:04:28Z) - Modulated Fusion using Transformer for Linguistic-Acoustic Emotion
Recognition [7.799182201815763]
本稿では,感情認識と感情分析のタスクに軽量で強力なソリューションを提供することを目的とする。
我々のモチベーションは、トランスフォーマーと変調に基づく2つのアーキテクチャを提案することである。
論文 参考訳(メタデータ) (2020-10-05T14:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。