論文の概要: AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations
- arxiv url: http://arxiv.org/abs/2401.15164v1
- Date: Fri, 26 Jan 2024 19:17:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 19:36:07.859488
- Title: AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations
- Title(参考訳): AMuSE:グループ会話における話者感情認識のための適応的マルチモーダル分析
- Authors: Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee,
Junsong Yuan, Yu-Ping Chang
- Abstract要約: マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
- 参考スコア(独自算出の注目度): 39.79734528362605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Analyzing individual emotions during group conversation is crucial in
developing intelligent agents capable of natural human-machine interaction.
While reliable emotion recognition techniques depend on different modalities
(text, audio, video), the inherent heterogeneity between these modalities and
the dynamic cross-modal interactions influenced by an individual's unique
behavioral patterns make the task of emotion recognition very challenging. This
difficulty is compounded in group settings, where the emotion and its temporal
evolution are not only influenced by the individual but also by external
contexts like audience reaction and context of the ongoing conversation. To
meet this challenge, we propose a Multimodal Attention Network that captures
cross-modal interactions at various levels of spatial abstraction by jointly
learning its interactive bunch of mode-specific Peripheral and Central
networks. The proposed MAN injects cross-modal attention via its Peripheral
key-value pairs within each layer of a mode-specific Central query network. The
resulting cross-attended mode-specific descriptors are then combined using an
Adaptive Fusion technique that enables the model to integrate the
discriminative and complementary mode-specific data patterns within an
instance-specific multimodal descriptor. Given a dialogue represented by a
sequence of utterances, the proposed AMuSE model condenses both spatial and
temporal features into two dense descriptors: speaker-level and
utterance-level. This helps not only in delivering better classification
performance (3-5% improvement in Weighted-F1 and 5-7% improvement in Accuracy)
in large-scale public datasets but also helps the users in understanding the
reasoning behind each emotion prediction made by the model via its Multimodal
Explainability Visualization module.
- Abstract(参考訳): グループ会話中の個々の感情を分析することは、自然な人間と機械の相互作用が可能な知的エージェントを開発する上で重要である。
信頼できる感情認識技術は、異なるモーダル性(テキスト、音声、ビデオ)に依存するが、これらのモーダル性と個人固有の行動パターンに影響される動的相互モーダル相互作用の間の固有の不均一性は、感情認識のタスクを非常に困難にする。
この難しさは、感情とその時間的進化が個人だけでなく、聴衆の反応や進行中の会話の文脈といった外部の文脈にも影響されるグループ設定で複合される。
この課題に対処するために、モード固有の周辺ネットワークと中央ネットワークの対話的集合を共同で学習することにより、様々な空間抽象レベルでの相互モーダル相互作用をキャプチャするマルチモーダル注意ネットワークを提案する。
提案手法では,モード固有の中央問合せネットワークの各層に周辺キー値ペアを介してクロスモーダル注意を注入する。
結果として得られたモード固有の記述子をAdaptive Fusion技術で組み合わせることで、モデルがインスタンス固有のマルチモーダル記述子に識別型および補完型モード固有のデータパターンを統合することができる。
発話列で表される対話が与えられた場合、提案したAMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
これは、大規模な公開データセットにおいて、より良い分類性能(3-5%の重み付きF1の改善と5-7%の正確性の改善)を提供するだけでなく、モデルのそれぞれの感情予測の背後にある理由を、Multimodal Explainability Visualizationモジュールを通じて理解する上でも役立ちます。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AM^2-EmoJE: Adaptive Missing-Modality Emotion Recognition in
Conversation via Joint Embedding Learning [42.69642087199678]
共同埋め込み学習モデルを用いた会話における適応的ミス・モダリティ感情認識モデルAM2-EmoJEを提案する。
対話レベルでの時間的詳細を活用することで、AM2-EmoJEは、最先端のマルチモーダル手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-26T19:57:26Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - Conversation Understanding using Relational Temporal Graph Neural
Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。
我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。
CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文 参考訳(メタデータ) (2023-11-08T07:46:25Z) - A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations [15.77747948751497]
本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
論文 参考訳(メタデータ) (2023-10-31T14:33:30Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - HCAM -- Hierarchical Cross Attention Model for Multi-modal Emotion
Recognition [41.837538440839815]
マルチモーダル感情認識のための階層的クロスアテンションモデル(HCAM)を提案する。
モデルへの入力は、学習可能なwav2vecアプローチによって処理される2つのモーダルデータと、変換器(BERT)モデルからの双方向エンコーダ表現を用いて表現されるテキストデータからなる。
文脈知識と2つのモードにまたがる情報を組み込むため、音声とテキストの埋め込みはコアテンション層を用いて結合される。
論文 参考訳(メタデータ) (2023-04-14T03:25:00Z) - High-Modality Multimodal Transformer: Quantifying Modality & Interaction
Heterogeneity for High-Modality Representation Learning [112.51498431119616]
本稿では,多種多様なモダリティを含む高モダリティシナリオに対する効率的な表現学習について検討する。
単一のモデルであるHighMMTは、テキスト、画像、オーディオ、ビデオ、センサー、プロプレセプション、スピーチ、時系列、セット、テーブル)と5つの研究領域から15のタスクをスケールする。
論文 参考訳(メタデータ) (2022-03-02T18:56:20Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。