論文の概要: An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition
- arxiv url: http://arxiv.org/abs/2209.09768v1
- Date: Tue, 20 Sep 2022 14:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:18:14.626881
- Title: An Efficient End-to-End Transformer with Progressive Tri-modal Attention
for Multi-modal Emotion Recognition
- Title(参考訳): マルチモーダル感情認識のためのプログレッシブなトリモーダル注意を伴うエンド・ツー・エンドトランスフォーマタ
- Authors: Yang Wu, Pai Peng, Zhenyu Zhang, Yanyan Zhao, Bing Qin
- Abstract要約: 本稿では,マルチモーダル・エンド・ツー・エンド・トランス (ME2ET) を提案する。
低レベルにおいては、2パス戦略を採用することで、3モーダルな特徴相互作用をモデル化できるプログレッシブ・トリモーダル・アテンションを提案する。
高いレベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
- 参考スコア(独自算出の注目度): 27.96711773593048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent works on multi-modal emotion recognition move towards end-to-end
models, which can extract the task-specific features supervised by the target
task compared with the two-phase pipeline. However, previous methods only model
the feature interactions between the textual and either acoustic and visual
modalities, ignoring capturing the feature interactions between the acoustic
and visual modalities. In this paper, we propose the multi-modal end-to-end
transformer (ME2ET), which can effectively model the tri-modal features
interaction among the textual, acoustic, and visual modalities at the low-level
and high-level. At the low-level, we propose the progressive tri-modal
attention, which can model the tri-modal feature interactions by adopting a
two-pass strategy and can further leverage such interactions to significantly
reduce the computation and memory complexity through reducing the input token
length. At the high-level, we introduce the tri-modal feature fusion layer to
explicitly aggregate the semantic representations of three modalities. The
experimental results on the CMU-MOSEI and IEMOCAP datasets show that ME2ET
achieves the state-of-the-art performance. The further in-depth analysis
demonstrates the effectiveness, efficiency, and interpretability of the
proposed progressive tri-modal attention, which can help our model to achieve
better performance while significantly reducing the computation and memory
cost. Our code will be publicly available.
- Abstract(参考訳): 近年、マルチモーダルな感情認識がエンドツーエンドモデルに移行し、ターゲットタスクによって監督されるタスク固有の特徴を、2相パイプラインと比較して抽出することができる。
しかし, 従来の手法では, テキストと視覚的モーダル間の特徴的相互作用のみをモデル化し, 音響的モーダルと視覚的モーダル間の特徴的相互作用を捉えることを無視していた。
本稿では,テキスト,音響,視覚間の相互作用を低レベル,高レベルで効果的にモデル化できるマルチモーダルエンド・ツー・エンドトランス(me2et)を提案する。
低レベルにおいては、2パス戦略を採用することで3モーダル特徴相互作用をモデル化し、さらにそのような相互作用を活用して入力トークン長を減らし、計算とメモリの複雑さを著しく低減できるプログレッシブ・トリモーダル・アテンションを提案する。
高レベルでは、3つのモーダルのセマンティック表現を明示的に集約する三モーダル特徴融合層を導入する。
CMU-MOSEIとIEMOCAPデータセットの実験結果は、ME2ETが最先端のパフォーマンスを達成することを示す。
さらに詳細な分析により,提案手法の有効性, 効率, 解釈可能性を示すとともに, 計算コストとメモリコストを大幅に削減しつつ, モデルの性能向上に寄与する。
私たちのコードは公開されます。
関連論文リスト
- DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - AIMDiT: Modality Augmentation and Interaction via Multimodal Dimension Transformation for Emotion Recognition in Conversations [57.99479708224221]
AIMDiTと呼ばれる新しいフレームワークを提案し、深い特徴のマルチモーダル融合の問題を解決する。
公開ベンチマークデータセットMELDでAIMDiTフレームワークを使用して行った実験では、Acc-7とw-F1メトリクスの2.34%と2.87%の改善が明らかにされた。
論文 参考訳(メタデータ) (2024-04-12T11:31:18Z) - X Modality Assisting RGBT Object Tracking [36.614908357546035]
本稿では,融合パラダイムの影響を光を当てるために,新しいXモダリティ支援ネットワーク(X-Net)を提案する。
RGBと熱モダリティの相違から生じる特徴学習のハードルに対処するために,プラグアンドプレイピクセルレベル生成モジュール(PGM)を提案する。
また,混合特徴量対話変換器と空間次元特徴量変換戦略を組み込んだ特徴量対話モジュール (FIM) を提案する。
論文 参考訳(メタデータ) (2023-12-27T05:38:54Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z) - EffMulti: Efficiently Modeling Complex Multimodal Interactions for
Emotion Analysis [8.941102352671198]
我々は感情分析過程を洗練させるために3種類の潜在表現を設計する。
これらの表現を包括的相互作用表現に合理的に組み込むために、モダリティ-セマンティック階層的融合が提案されている。
実験の結果,EffMultiは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-16T03:05:55Z) - LMR-CBT: Learning Modality-fused Representations with CB-Transformer for
Multimodal Emotion Recognition from Unaligned Multimodal Sequences [5.570499497432848]
マルチモーダル感情認識のためのCB-Transformer (LMR-CBT) を用いて, モダリティ融合表現を学習するための効率的なニューラルネットワークを提案する。
3つの挑戦的なデータセット上で、単語整列と非整列の実験を行います。
論文 参考訳(メタデータ) (2021-12-03T03:43:18Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。