論文の概要: Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal
Sentiment Analysis and Emotion Recognition
- arxiv url: http://arxiv.org/abs/2305.13583v2
- Date: Tue, 27 Jun 2023 05:48:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-28 16:48:30.590444
- Title: Cross-Attention is Not Enough: Incongruity-Aware Hierarchical Multimodal
Sentiment Analysis and Emotion Recognition
- Title(参考訳): 相互注意は十分ではない: 階層的マルチモーダル感性分析と感情認識
- Authors: Yaoting Wang, Yuanchao Li, Peter Bell, Catherine Lai
- Abstract要約: 我々は,一方のモダリティが他方のモダリティにどのように影響するかを,横断的注意で分析する。
モーダル間不整合は、モーダル間注意による潜在レベルに存在することが判明した。
本稿では,モダリティゲーティングを用いた階層型クロスモーダルトランスを用いた軽量モデルを提案する。
- 参考スコア(独自算出の注目度): 9.956827851309638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fusing multiple modalities for affective computing tasks has proven effective
for performance improvement. However, how multimodal fusion works is not well
understood, and its use in the real world usually results in large model sizes.
In this work, on sentiment and emotion analysis, we first analyze how the
salient affective information in one modality can be affected by the other in
crossmodal attention. We find that inter-modal incongruity exists at the latent
level due to crossmodal attention. Based on this finding, we propose a
lightweight model via Hierarchical Crossmodal Transformer with Modality Gating
(HCT-MG), which determines a primary modality according to its contribution to
the target task and then hierarchically incorporates auxiliary modalities to
alleviate inter-modal incongruity and reduce information redundancy. The
experimental evaluation on three benchmark datasets: CMU-MOSI, CMU-MOSEI, and
IEMOCAP verifies the efficacy of our approach, showing that it: 1) achieves
better performance than prior work as well as manual selection of the primary
modality; 2) can recognize hard samples whose emotions are hard to tell; 3)
mitigates the inter-modal incongruity at the latent level when modalities have
mismatched affective tendencies; 4) reduces model size to less than 1M
parameters while outperforming existing models of similar sizes.
- Abstract(参考訳): 情緒的な計算タスクに複数のモダリティを組み込むことは、性能改善に有効であることが証明されている。
しかし、マルチモーダル融合の仕組みはよく理解されておらず、実世界での使用は通常、大きなモデルサイズをもたらす。
本稿では,感情分析と感情分析について,まず,一方のモダリティにおける情緒的情報がどのように他方のモダリティに影響を与えているかを解析する。
モーダル間不整合は、モーダル間の注意による潜在レベルに存在する。
そこで本研究では,階層型クロスモーダルトランスフォーマーとモダリティゲーティング(HCT-MG)を用いた軽量モデルを提案する。
CMU-MOSI, CMU-MOSEI, IEMOCAP の3つのベンチマークデータセットに対する評価実験により, 本手法の有効性が確認された。
1) 主なモダリティの手動選択と同様に,先行作業よりも優れた性能を達成する。
2) 感情が分かりにくい硬いサンプルを認識できる。
3)モダリティが情緒的傾向と合致しない場合の潜在レベルでのモーダル間違和感を緩和する。
4) モデルサイズを1m以下のパラメータに削減し、同じサイズの既存のモデルよりも優れる。
関連論文リスト
- RADAR: Robust Two-stage Modality-incomplete Industrial Anomaly Detection [61.71770293720491]
本稿では,2段階のロバスト・モードアリティ不完全融合とFlaAmewoRkの検出について提案する。
我々のブートストラッピング哲学は、MIIADの2段階を強化し、マルチモーダルトランスの堅牢性を向上させることである。
実験の結果,提案手法は従来のMIAD法よりも有効性とロバスト性に優れていた。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Missing-modality Enabled Multi-modal Fusion Architecture for Medical
Data [8.472576865966744]
マルチモーダルデータを融合することで、ディープラーニングモデルの性能を向上させることができる。
欠失モダリティは、患者の特異性によって医療データに共通する。
本研究では、欠落したモダリティに対して堅牢な医療データのための効率的なマルチモーダル融合アーキテクチャを開発した。
論文 参考訳(メタデータ) (2023-09-27T09:46:07Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z) - Robustness of Fusion-based Multimodal Classifiers to Cross-Modal Content
Dilutions [27.983902791798965]
画像と既存のテキストとの関連性やトピックのコヒーレンスを維持する希釈テキストを生成するモデルを開発する。
その結果,タスク固有の融合型マルチモーダル分類器の性能はそれぞれ23.3%,22.5%低下することがわかった。
我々の研究は、深いマルチモーダルモデルの現実的な変動に対する堅牢性について、さらなる研究をハイライトし、奨励することを目的としている。
論文 参考訳(メタデータ) (2022-11-04T17:58:02Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Dynamic Dual-Attentive Aggregation Learning for Visible-Infrared Person
Re-Identification [208.1227090864602]
Visible-infrared person re-identification (VI-ReID) は、歩行者検索の課題である。
既存のVI-ReID法は、識別可能性に制限があり、ノイズの多い画像に対して弱いロバスト性を持つグローバル表現を学習する傾向にある。
そこで我々は,VI-ReIDのための動的二段階集合(DDAG)学習法を提案する。
論文 参考訳(メタデータ) (2020-07-18T03:08:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。