論文の概要: AM^2-EmoJE: Adaptive Missing-Modality Emotion Recognition in
Conversation via Joint Embedding Learning
- arxiv url: http://arxiv.org/abs/2402.10921v1
- Date: Fri, 26 Jan 2024 19:57:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-25 17:01:52.646636
- Title: AM^2-EmoJE: Adaptive Missing-Modality Emotion Recognition in
Conversation via Joint Embedding Learning
- Title(参考訳): AM^2-EmoJE:共同埋め込み学習による会話における適応的欠落モード感情認識
- Authors: Naresh Kumar Devulapally, Sidharth Anand, Sreyasee Das Bhattacharjee,
Junsong Yuan
- Abstract要約: 共同埋め込み学習モデルを用いた会話における適応的ミス・モダリティ感情認識モデルAM2-EmoJEを提案する。
対話レベルでの時間的詳細を活用することで、AM2-EmoJEは、最先端のマルチモーダル手法よりも優れた性能を示す。
- 参考スコア(独自算出の注目度): 42.69642087199678
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human emotion can be presented in different modes i.e., audio, video, and
text. However, the contribution of each mode in exhibiting each emotion is not
uniform. Furthermore, the availability of complete mode-specific details may
not always be guaranteed in the test time. In this work, we propose AM^2-EmoJE,
a model for Adaptive Missing-Modality Emotion Recognition in Conversation via
Joint Embedding Learning model that is grounded on two-fold contributions:
First, a query adaptive fusion that can automatically learn the relative
importance of its mode-specific representations in a query-specific manner. By
this the model aims to prioritize the mode-invariant spatial query details of
the emotion patterns, while also retaining its mode-exclusive aspects within
the learned multimodal query descriptor. Second the multimodal joint embedding
learning module that explicitly addresses various missing modality scenarios in
test-time. By this, the model learns to emphasize on the correlated patterns
across modalities, which may help align the cross-attended mode-specific
descriptors pairwise within a joint-embedding space and thereby compensate for
missing modalities during inference. By leveraging the spatio-temporal details
at the dialogue level, the proposed AM^2-EmoJE not only demonstrates superior
performance compared to the best-performing state-of-the-art multimodal
methods, by effectively leveraging body language in place of face expression,
it also exhibits an enhanced privacy feature. By reporting around 2-5%
improvement in the weighted-F1 score, the proposed multimodal joint embedding
module facilitates an impressive performance gain in a variety of
missing-modality query scenarios during test time.
- Abstract(参考訳): 人間の感情は、音声、ビデオ、テキストなど、さまざまなモードで表現できる。
しかし、各感情の表現における各モードの寄与は均一ではない。
さらに、完全なモード固有の詳細がテスト時間で常に保証されるとは限らない。
本研究では,2次元のコントリビューションを基礎としたAM^2-EmoJEモデルを提案する。まず,モード固有表現の相対的重要性をクエリ固有方法で自動学習するクエリ適応融合を提案する。
このモデルでは、感情パターンのモード不変な空間クエリの詳細を優先すると同時に、学習したマルチモーダルクエリ記述子内でモード排他的な側面も保持する。
第二に、テスト時に様々な欠落したモダリティシナリオを明示的に扱うマルチモーダルジョイント組み込み学習モジュールである。
これにより、交叉したモード固有の記述子を結合埋め込み空間内で一対に整列させ、推論中に欠落したモダリティを補うことができる。
対話レベルでの時空間的詳細を活用することで、AM^2-EmoJEは、最高のパフォーマンスのマルチモーダル手法よりも優れた性能を示すだけでなく、顔表現の代わりにボディ言語を効果的に活用することで、プライバシーの強化も実現している。
重み付きf1スコアの約2~5%の改善を報告することにより、提案するマルチモーダルジョイント埋め込みモジュールは、テスト時間中に様々な欠落したクエリシナリオで印象的なパフォーマンス向上を実現する。
関連論文リスト
- Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Learning Modality-agnostic Representation for Semantic Segmentation from Any Modalities [8.517830626176641]
Any2Segは、任意の視覚的条件におけるモダリティの組み合わせから堅牢なセグメンテーションを実現する新しいフレームワークである。
4つのモダリティを持つ2つのベンチマークの実験は、Any2Segがマルチモーダル設定の下で最先端を達成することを示した。
論文 参考訳(メタデータ) (2024-07-16T03:34:38Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Learning Modality Interaction for Temporal Sentence Localization and
Event Captioning in Videos [76.21297023629589]
そこで本稿では,ビデオの各対のモダリティの相補的情報をよりよく活用するために,ペアワイズなモダリティ相互作用を学習するための新しい手法を提案する。
提案手法は,4つの標準ベンチマークデータセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-28T12:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。