論文の概要: Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition
- arxiv url: http://arxiv.org/abs/2305.13583v4
- Date: Mon, 13 Nov 2023 00:09:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 21:53:10.643009
- Title: Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition
- Title(参考訳): 相互注意が十分でない:マルチモーダル影響認識のための動的階層型融合
- Authors: Yaoting Wang, Yuanchao Li, Paul Pu Liang, Louis-Philippe Morency,
Peter Bell, Catherine Lai
- Abstract要約: モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
- 参考スコア(独自算出の注目度): 69.32305810128994
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing multiple modalities has proven effective for multimodal information
processing. However, the incongruity between modalities poses a challenge for
multimodal fusion, especially in affect recognition. In this study, we first
analyze how the salient affective information in one modality can be affected
by the other, and demonstrate that inter-modal incongruity exists latently in
crossmodal attention. Based on this finding, we propose the Hierarchical
Crossmodal Transformer with Dynamic Modality Gating (HCT-DMG), a lightweight
incongruity-aware model, which dynamically chooses the primary modality in each
training batch and reduces fusion times by leveraging the learned hierarchy in
the latent space to alleviate incongruity. The experimental evaluation on five
benchmark datasets: CMU-MOSI, CMU-MOSEI, and IEMOCAP (sentiment and emotion),
where incongruity implicitly lies in hard samples, as well as UR-FUNNY (humour)
and MUStaRD (sarcasm), where incongruity is common, verifies the efficacy of
our approach, showing that HCT-DMG: 1) outperforms previous multimodal models
with a reduced size of approximately 0.8M parameters; 2) recognizes hard
samples where incongruity makes affect recognition difficult; 3) mitigates the
incongruity at the latent level in crossmodal attention.
- Abstract(参考訳): 複数のモダリティを融合させることは、マルチモーダル情報処理に有効であることが証明されている。
しかし、モダリティ間の不整合性は、特に影響認識において、マルチモーダル融合の課題となる。
本研究では,まず,一方のモダリティにおける有意な情動情報が他方にどのように影響するかを解析し,相互モダリティの注意において,相互モダリティ間の違和感が潜在的に存在することを示す。
そこで本研究では, 動的モダリティゲーティングを用いた階層型クロスモーダルトランスフォーマー(HCT-DMG)を提案する。このモデルでは, トレーニングバッチ毎の一次モダリティを動的に選択し, 潜時空間の学習階層を利用して融合時間を短縮し, 不整合を緩和する。
CMU-MOSI, CMU-MOSEI, IEMOCAP(感覚と感情)とUR-FUNNY(ヒューム)とMUStaRD(サルカズム)の5つのベンチマークデータセットを用いた実験結果, 不調和が一般的である場合, 本手法の有効性を検証し, HCT-DMGが有用であることを示す。
1) 約0.8mのパラメータで従来のマルチモーダルモデルを上回る。
2)不整合が認識を難しくするハードサンプルを認識する。
3)過度な注意力で潜伏レベルの不整合を緩和する。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Missing-modality Enabled Multi-modal Fusion Architecture for Medical
Data [8.472576865966744]
マルチモーダルデータを融合することで、ディープラーニングモデルの性能を向上させることができる。
欠失モダリティは、患者の特異性によって医療データに共通する。
本研究では、欠落したモダリティに対して堅牢な医療データのための効率的なマルチモーダル融合アーキテクチャを開発した。
論文 参考訳(メタデータ) (2023-09-27T09:46:07Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。