論文の概要: Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition?
- arxiv url: http://arxiv.org/abs/2202.09263v1
- Date: Fri, 18 Feb 2022 15:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 16:39:50.905213
- Title: Is Cross-Attention Preferable to Self-Attention for Multi-Modal Emotion
Recognition?
- Title(参考訳): マルチモーダル感情認識における自己認識はクロスアテンションが望ましいか?
- Authors: Vandana Rajan, Alessio Brutti, Andrea Cavallaro
- Abstract要約: クロスモーダル・アテンションはマルチモーダル核融合の有効なメカニズムであると考えられている。
クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
- 参考スコア(独自算出の注目度): 36.67937514793215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans express their emotions via facial expressions, voice intonation and
word choices. To infer the nature of the underlying emotion, recognition models
may use a single modality, such as vision, audio, and text, or a combination of
modalities. Generally, models that fuse complementary information from multiple
modalities outperform their uni-modal counterparts. However, a successful model
that fuses modalities requires components that can effectively aggregate
task-relevant information from each modality. As cross-modal attention is seen
as an effective mechanism for multi-modal fusion, in this paper we quantify the
gain that such a mechanism brings compared to the corresponding self-attention
mechanism. To this end, we implement and compare a cross-attention and a
self-attention model. In addition to attention, each model uses convolutional
layers for local feature extraction and recurrent layers for global sequential
modelling. We compare the models using different modality combinations for a
7-class emotion classification task using the IEMOCAP dataset. Experimental
results indicate that albeit both models improve upon the state-of-the-art in
terms of weighted and unweighted accuracy for tri- and bi-modal configurations,
their performance is generally statistically comparable. The code to replicate
the experiments is available at https://github.com/smartcameras/SelfCrossAttn
- Abstract(参考訳): 人間は表情、音声イントネーション、単語の選択を通じて感情を表現する。
基礎となる感情の性質を推測するために、認識モデルは視覚、音声、テキスト、あるいはモダリティの組み合わせのような単一のモダリティを使用することができる。
一般に、複数のモダリティから相補的な情報を融合するモデルは、ユニモーダルよりも優れている。
しかし、モダリティを融合させる成功モデルは、各モダリティからタスク関連情報を効果的に集約できるコンポーネントを必要とする。
クロスモーダル・アテンションはマルチモーダル融合の有効なメカニズムと見なされているため,本稿では,そのようなメカニズムが持つ利得を,対応する自己着脱機構と比較して定量化する。
この目的のために,クロスアテンションモデルと自己アテンションモデルを実装し,比較する。
注目に加えて、各モデルは局所的な特徴抽出に畳み込み層を使用し、グローバルなシーケンシャルなモデリングに繰り返しレイヤを使用する。
IEMOCAPデータセットを用いた7クラス感情分類タスクにおいて,異なるモードの組み合わせを用いたモデルの比較を行った。
実験の結果, いずれのモデルも, 重み付けと重み付けの精度が向上したが, その性能は概ね統計的に比較できることがわかった。
実験を再現するコードはhttps://github.com/smartcameras/selfcrossattnで入手できる。
関連論文リスト
- Towards a Generalist and Blind RGB-X Tracker [91.36268768952755]
我々は、推論時間中に任意のモダリティ X を無視できる単一のモデルトラッカーを開発する。
トレーニングプロセスは非常にシンプルで,複数ラベルの分類損失をルーティング関数に統合する。
我々のジェネラリストとブラインドトラッカーは、確立されたモーダル固有モデルと比較して、競争性能を達成することができる。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Cross-Language Speech Emotion Recognition Using Multimodal Dual
Attention Transformers [5.538923337818467]
最先端のシステムでは、言語間の設定でパフォーマンスが向上することができない。
言語間SERを改善するためのマルチモーダルデュアルアテンショントランスモデルを提案する。
論文 参考訳(メタデータ) (2023-06-23T22:38:32Z) - Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。
これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか?
彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文 参考訳(メタデータ) (2023-06-15T06:45:46Z) - A Self-Adjusting Fusion Representation Learning Model for Unaligned
Text-Audio Sequences [16.38826799727453]
融合表現を学習するために各モダリティの関連情報を統合する方法は、マルチモーダル学習における中心的な課題の1つとなっている。
本稿では,不整合テキストや音声シーケンスから直接,頑健な相互拡散表現を学習するために,自己調整型融合表現学習モデルを提案する。
実験結果から,本モデルでは不整合テキスト・オーディオ・シーケンスにおける全ての指標の性能が大幅に向上したことが示された。
論文 参考訳(メタデータ) (2022-11-12T13:05:28Z) - Multimodal End-to-End Group Emotion Recognition using Cross-Modal
Attention [0.0]
グループレベルの感情を分類することは、ビデオの複雑さのために難しい課題である。
VGAFデータセットベースラインよりも約8.5%高い60.37%の検証精度が得られた。
論文 参考訳(メタデータ) (2021-11-10T19:19:26Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Does my multimodal model learn cross-modal interactions? It's harder to
tell than you might think! [26.215781778606168]
クロスモーダルモデリングは、視覚的質問応答のようなマルチモーダルタスクにおいて不可欠である。
本稿では,与えられたタスク上でのモデル間の相互作用によって性能が向上するか否かを分離する,新たな診断ツールである経験的多モード付加関数投影(EMAP)を提案する。
7つの画像+テキスト分類タスク(それぞれに新しい最先端のベンチマークを設定した)に対して、多くの場合、モーダル間相互作用を削除することは、パフォーマンスの劣化をほとんど、あるいは全く起こさない。
論文 参考訳(メタデータ) (2020-10-13T17:45:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。