論文の概要: Multi-View Incongruity Learning for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2412.00756v1
- Date: Sun, 01 Dec 2024 10:29:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:06.286820
- Title: Multi-View Incongruity Learning for Multimodal Sarcasm Detection
- Title(参考訳): マルチビュー同時学習によるマルチモーダルサーカスム検出
- Authors: Diandian Guo, Cong Cao, Fangfang Yuan, Yanbing Liu, Guangjie Zeng, Xiaoyan Yu, Hao Peng, Philip S. Yu,
- Abstract要約: マルチモーダルサルカズム検出(MSD)は下流の様々なタスクに不可欠である。
既存のMSD法は、素早い相関に依存する傾向がある。
本稿では,マルチモーダルサルカズム検出のためのコントラスト学習(MICL)によるマルチモーダルイングルリティの統合手法を提案する。
- 参考スコア(独自算出の注目度): 40.10921890527881
- License:
- Abstract: Multimodal sarcasm detection (MSD) is essential for various downstream tasks. Existing MSD methods tend to rely on spurious correlations. These methods often mistakenly prioritize non-essential features yet still make correct predictions, demonstrating poor generalizability beyond training environments. Regarding this phenomenon, this paper undertakes several initiatives. Firstly, we identify two primary causes that lead to the reliance of spurious correlations. Secondly, we address these challenges by proposing a novel method that integrate Multimodal Incongruities via Contrastive Learning (MICL) for multimodal sarcasm detection. Specifically, we first leverage incongruity to drive multi-view learning from three views: token-patch, entity-object, and sentiment. Then, we introduce extensive data augmentation to mitigate the biased learning of the textual modality. Additionally, we construct a test set, SPMSD, which consists potential spurious correlations to evaluate the the model's generalizability. Experimental results demonstrate the superiority of MICL on benchmark datasets, along with the analyses showcasing MICL's advancement in mitigating the effect of spurious correlation.
- Abstract(参考訳): マルチモーダルサルカズム検出(MSD)は下流の様々なタスクに不可欠である。
既存のMSD法は、素早い相関に依存する傾向がある。
これらの手法は、しばしば誤って非本質的な特徴を優先順位付けするが、正確な予測をし、訓練環境を超えて一般化性が低いことを示す。
この現象に関して、本稿はいくつかの取り組みを行っている。
まず、素因関係の信頼につながる2つの主な原因を同定する。
第2に,マルチモーダルサルカズム検出のためのコントラスト学習(MICL)を通じて,マルチモーダルイングルリティを統合する新しい手法を提案することで,これらの課題に対処する。
具体的には、まず不整合を利用して、トークンパッチ、エンティティオブジェクト、感情という3つの視点からマルチビュー学習を推進します。
そして,テキストモダリティのバイアス学習を緩和するために,広範囲なデータ拡張を導入する。
さらに、モデルの一般化性を評価するために、潜在的に突発的な相関からなるテストセットSPMSDを構築した。
実験結果から,MICLのベンチマークデータセット上での優位性,およびスプリアス相関の効果を緩和するMICLの進歩を示唆する分析結果が得られた。
関連論文リスト
- The Curse of Multi-Modalities: Evaluating Hallucinations of Large Multimodal Models across Language, Visual, and Audio [118.75449542080746]
本稿では,大規模マルチモーダルモデル(LMM)における幻覚に関する最初の系統的研究について述べる。
本研究は,幻覚に対する2つの重要な要因を明らかにした。
私たちの研究は、モダリティ統合の不均衡やトレーニングデータからのバイアスなど、重要な脆弱性を強調し、モダリティ間のバランスの取れた学習の必要性を強調した。
論文 参考訳(メタデータ) (2024-10-16T17:59:02Z) - Towards Multimodal Sentiment Analysis Debiasing via Bias Purification [21.170000473208372]
マルチモーダル・センティメント・アナリティクス(MSA)は、多様なモダリティから感情に関連する手がかりを統合することで、人間の意図を理解することを目的としている。
MSAタスクは、計画されていないデータセットバイアス、特にマルチモーダル発話レベルのラベルバイアスと単語レベルのコンテキストバイアスに悩まされる。
本稿では,従来の可能性ではなく因果関係に基づくマルチモーダル・カウンターファクト・インジェクチャ・インセプティメント分析フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-08T03:55:27Z) - Debiasing Multimodal Sarcasm Detection with Contrastive Learning [5.43710908542843]
コントラスト学習を伴うマルチモーダルサルカズム検出フレームワークを提案する。
特に,非類似な単語バイアスを持つ正のサンプルを構築するために,まず反実データ拡張を設計する。
我々は、モデルが堅牢なタスク関連特徴を学習できるようにするために、適応型偏りの対照的な学習メカニズムを考案する。
論文 参考訳(メタデータ) (2023-12-16T16:14:50Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - On Modality Bias Recognition and Reduction [70.69194431713825]
マルチモーダル分類の文脈におけるモダリティバイアス問題について検討する。
本稿では,各ラベルの特徴空間を適応的に学習するプラグアンドプレイ損失関数法を提案する。
本手法は, ベースラインに比べ, 顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-25T13:47:09Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。