論文の概要: Conditional Information Bottleneck for Multimodal Fusion: Overcoming Shortcut Learning in Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2508.10644v1
- Date: Thu, 14 Aug 2025 13:39:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.336291
- Title: Conditional Information Bottleneck for Multimodal Fusion: Overcoming Shortcut Learning in Sarcasm Detection
- Title(参考訳): マルチモーダル核融合のための条件情報基盤:サルカズム検出におけるショートカット学習の克服
- Authors: Yihua Wang, Qi Jia, Cong Xu, Feiyu Chen, Yuhan Liu, Haotian Zhang, Liang Jin, Lu Liu, Zhichun Wang,
- Abstract要約: マルチモーダルサルカズム検出は、モダリティ間の微妙な相補的な信号の区別を必要とする複雑なタスクである。
多くの先進的な手法は、意図した皮肉に関連する特徴を抽出するのではなく、データセットからショートカットを学習することに依存している。
本稿では,マルチモーダル・コンディショナル・インフォメーション・ブートネック(MCIB)モデルを導入し,効率的なマルチモーダル融合によるサルカズム検出を実現する。
- 参考スコア(独自算出の注目度): 24.90697976855166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sarcasm detection is a complex task that requires distinguishing subtle complementary signals across modalities while filtering out irrelevant information. Many advanced methods rely on learning shortcuts from datasets rather than extracting intended sarcasm-related features. However, our experiments show that shortcut learning impairs the model's generalization in real-world scenarios. Furthermore, we reveal the weaknesses of current modality fusion strategies for multimodal sarcasm detection through systematic experiments, highlighting the necessity of focusing on effective modality fusion for complex emotion recognition. To address these challenges, we construct MUStARD++$^{R}$ by removing shortcut signals from MUStARD++. Then, a Multimodal Conditional Information Bottleneck (MCIB) model is introduced to enable efficient multimodal fusion for sarcasm detection. Experimental results show that the MCIB achieves the best performance without relying on shortcut learning.
- Abstract(参考訳): マルチモーダルサルカズム検出は、無関係な情報をフィルタリングしながら、モダリティ間で微妙に補完的な信号を区別する必要がある複雑なタスクである。
多くの先進的な手法は、意図した皮肉に関連する特徴を抽出するのではなく、データセットからショートカットを学習することに依存している。
しかし,本実験では,ショートカット学習が実世界のシナリオにおけるモデルの一般化を損なうことを示した。
さらに,マルチモーダル・サルカズム検出のための現在のモーダリティ・フュージョン戦略の弱点を明らかにするとともに,複雑な感情認識のための効果的なモーダリティ・フュージョンに焦点を当てることの必要性を明らかにする。
これらの課題に対処するため、MUStARD++$^{R}$を構築し、MUStARD++からショートカット信号を削除する。
次に,マルチモーダル・コンディショナル・インフォメーション・ブートネック(MCIB)モデルを導入し,効率的なマルチモーダル融合によるサルカズム検出を実現する。
実験結果から,MCIBはショートカット学習に頼らずに最高の性能を発揮することが示された。
関連論文リスト
- Can Large Vision-Language Models Understand Multimodal Sarcasm? [14.863320201956963]
サルカスム(Sarcasm)は、リテラルと意図された意味の相違を含む複雑な言語現象である。
マルチモーダルサルカズム解析(MSA)タスクにおける大規模視覚言語モデル(LVLM)の評価を行った。
深度オブジェクト抽出と外部概念知識を統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T17:05:11Z) - RCLMuFN: Relational Context Learning and Multiplex Fusion Network for Multimodal Sarcasm Detection [1.023096557577223]
マルチモーダルサルカズム検出のための関係文脈学習と多重化融合ネットワーク(RCLMuFN)を提案する。
まず,4つの特徴抽出器を用いて,原文や画像から特徴を包括的に抽出する。
次に,関係文脈学習モジュールを用いて,テキストや画像の文脈情報を学習する。
論文 参考訳(メタデータ) (2024-12-17T15:29:31Z) - Multimodal Prompt Learning with Missing Modalities for Sentiment Analysis and Emotion Recognition [52.522244807811894]
本稿では,欠落したモダリティの問題に対処するために,即時学習を用いた新しいマルチモーダルトランスフォーマーフレームワークを提案する。
提案手法では,生成的プロンプト,欠信号プロンプト,欠信号プロンプトの3種類のプロンプトを導入している。
迅速な学習を通じて、トレーニング可能なパラメータの数を大幅に削減する。
論文 参考訳(メタデータ) (2024-07-07T13:55:56Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - CofiPara: A Coarse-to-fine Paradigm for Multimodal Sarcasm Target Identification with Large Multimodal Models [14.453131020178564]
本稿では,大きめのパラダイムを持つ多目的MSTIフレームワークを提案する。
マルチモーダル推論におけるLMM(Large Multimodal Models)の強力な能力に着想を得て、まずLMMに取り組み、マルチモーダルサルカズム検出における小言語モデルの粗粒化事前学習のための競合する有理性を生成する。
そこで本稿では,LMM に内在する潜在的なノイズによる負の影響を緩和し,より微細な目標同定モデルを提案する。
論文 参考訳(メタデータ) (2024-05-01T08:44:44Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Efficient Reinforcement Learning in Block MDPs: A Model-free
Representation Learning Approach [73.62265030773652]
ブロック構造力学を用いたマルコフ決定過程における効率的な強化学習アルゴリズムであるBRIEEを提案する。
BRIEEは、潜伏状態の発見、探索、搾取を相互にインターリーブし、ほぼ最適な政策を確実に学べる。
我々は、BRIEEが最先端のBlock MDPアルゴリズムであるHOMER RLや、リッチ・オブザーブレーションの組み合わせロック問題に挑戦する経験的ベースラインよりも、より標本効率が高いことを示す。
論文 参考訳(メタデータ) (2022-01-31T19:47:55Z) - Multimodal Learning using Optimal Transport for Sarcasm and Humor
Detection [76.62550719834722]
会話ビデオと画像テキストのペアからマルチモーダルサルカズムとユーモアを検出する。
本稿では,モーダル内対応を利用したマルチモーダル学習システム MuLOT を提案する。
3つのベンチマークデータセット上で,マルチモーダルサルカズムとユーモア検出のためのアプローチを検証した。
論文 参考訳(メタデータ) (2021-10-21T07:51:56Z) - Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。
MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。
本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文 参考訳(メタデータ) (2020-02-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。