論文の概要: URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2604.06728v1
- Date: Wed, 08 Apr 2026 06:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.37325
- Title: URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection
- Title(参考訳): URMF:マルチモーダルサーカスム検出のための不確実性を考慮したロバスト・マルチモーダルフュージョン
- Authors: Zhenyu Wang, Weichen Cheng, Weijia Li, Junjie Mou, Zongyou Zhao, Guoying Zhang,
- Abstract要約: マルチモーダルサルカズム検出(MSD)は,テキストと画像間の意味的不一致から皮肉な意図を識別することを目的としている。
本稿では,対話や融合におけるモダリティの信頼性を明示的にモデル化する統一フレームワークであるUncertainty-aware Robust Multimodal Fusion (URMF)を提案する。
URMFは、強い単調、マルチモーダル、MLLMベースのベースラインを一貫して上回る。
- 参考スコア(独自算出の注目度): 17.19666367498091
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sarcasm detection (MSD) aims to identify sarcastic intent from semantic incongruity between text and image. Although recent methods have improved MSD through cross-modal interaction and incongruity reasoning, they often assume that all modalities are equally reliable. In real-world social media, however, textual content may be ambiguous and visual content may be weakly relevant or even irrelevant, causing deterministic fusion to introduce noisy evidence and weaken robust reasoning. To address this issue, we propose Uncertainty-aware Robust Multimodal Fusion (URMF), a unified framework that explicitly models modality reliability during interaction and fusion. URMF first employs multi-head cross-attention to inject visual evidence into textual representations, followed by multi-head self-attention in the fused semantic space to enhance incongruity-aware reasoning. It then performs unified unimodal aleatoric uncertainty modeling over text, image, and interaction-aware latent representations by parameterizing each modality as a learnable Gaussian posterior. The estimated uncertainty is further used to dynamically regulate modality contributions during fusion, suppressing unreliable modalities and yielding a more robust joint representation. In addition, we design a joint training objective integrating task supervision, modality prior regularization, cross-modal distribution alignment, and uncertainty-driven self-sampling contrastive learning. Experiments on public MSD benchmarks show that URMF consistently outperforms strong unimodal, multimodal, and MLLM-based baselines, demonstrating the effectiveness of uncertainty-aware fusion for improving both accuracy and robustness.
- Abstract(参考訳): マルチモーダルサルカズム検出(MSD)は,テキストと画像間の意味的不一致から皮肉な意図を識別することを目的としている。
最近の手法は相互モーダル相互作用や不連続推論を通じてMSDを改善しているが、全てのモーダル性は等しく信頼されていると仮定することが多い。
しかし、現実のソーシャルメディアでは、テキストの内容は曖昧であり、視覚的内容は弱い関係にあるか、あるいは無関係である可能性があるため、決定論的融合はノイズのある証拠を導入し、堅牢な推論を弱める。
この問題に対処するため,不確実性を考慮したロバスト・マルチモーダル・フュージョン(URMF)を提案する。
URMFはまず、視覚的エビデンスをテキスト表現に注入するために、マルチヘッドのクロスアテンションを使用し、続いて融合セマンティック空間におけるマルチヘッドの自己アテンションを用いて、矛盾を意識する推論を強化する。
次に、各モダリティを学習可能なガウス後部としてパラメータ化することにより、テキスト、画像、および相互作用を意識した潜在表現に対する一元的アレータリック不確実性を統一的にモデル化する。
推定された不確実性は、融合中のモダリティ寄与を動的に制御し、信頼できないモダリティを抑え、より堅牢な関節表現をもたらすためにさらに用いられる。
さらに,タスク管理,モーダリティ事前正規化,モーダル間分布アライメント,不確実性駆動型自己サンプリングコントラスト学習を統合した共同学習目標を設計する。
パブリックMSDベンチマークの実験では、URMFは強い単調、マルチモーダル、MLLMベースのベースラインを一貫して上回り、精度と堅牢性の両方を改善するために不確実性を考慮した融合の有効性を示す。
関連論文リスト
- SURE: Synergistic Uncertainty-aware Reasoning for Multimodal Emotion Recognition in Conversations [15.80542007124167]
会話におけるマルチモーダル感情認識(MERC)は、ノイズに頑健であり、文脈的推論をモデル化しながら、マルチモーダル信号を統合する必要がある。
我々は、堅牢性と文脈モデリングを改善するMERCのためのSURE(Synergistic Uncertainty-aware Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-04-02T11:32:15Z) - Progressive Representation Learning for Multimodal Sentiment Analysis with Incomplete Modalities [26.613566093134065]
マルチモーダル・センティメント・アナリティクスは、テキスト、音響、視覚的手がかりを統合することで人間の感情を推測する。
既存のアプローチでは、すべてのモダリティが完全であるのに対して、現実のアプリケーションは、ノイズやハードウェアの障害、あるいはモダリティの欠如につながるプライバシー制限にしばしば遭遇する。
我々は、不確実なモダリティ条件下でMSA用に設計されたプログレッシブ表現学習フレームワークPRLFを提案する。
論文 参考訳(メタデータ) (2026-03-10T02:45:02Z) - Compose and Fuse: Revisiting the Foundational Bottlenecks in Multimodal Reasoning [49.17801010041155]
MLLM(Multimodal large language model)は、テキスト、ビジョン、オーディオなどの多様な入力を統合することで推論を強化することを約束する。
しかし、追加のモダリティがパフォーマンスを損なうかどうかについての報告は相反する。
我々は、多モーダル推論を6つの相互作用パターンに分類し、事実がどのようにモダリティに分散され、論理的に組み合わせられるかを決定する。
論文 参考訳(メタデータ) (2025-09-28T08:46:11Z) - Learning to Fuse: Modality-Aware Adaptive Scheduling for Robust Multimodal Foundation Models [0.0]
モーダリティ・アウェア・アダプティブ・フュージョン・スケジューリング(MA-AFS)は、各モーダリティの寄与をインスタンス単位で動的に調節することを学ぶ。
本研究は, 適応融合の重要性を強調し, 信頼性と不確実性を考慮したマルチモーダル学習に向けた有望な方向性を開く。
論文 参考訳(メタデータ) (2025-06-15T05:57:45Z) - Latent Distribution Decoupling: A Probabilistic Framework for Uncertainty-Aware Multimodal Emotion Recognition [7.25361375272096]
マルチモーダル・マルチラベル感情認識は,マルチモーダルデータにおける複数の感情の存在を同時に認識することを目的としている。
既存の研究では、マルチモーダルデータに固有のノイズであるテクスブファレラティック不確実性の影響を見落としている。
本稿では,不確かさ認識フレームワークを用いた潜在感情分布分解法を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:53:23Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Confidence-aware multi-modality learning for eye disease screening [58.861421804458395]
眼疾患スクリーニングのための新しい多モード顕在核融合パイプラインを提案する。
モダリティごとに信頼度を測り、マルチモダリティ情報をエレガントに統合する。
パブリックデータセットと内部データセットの両方の実験結果は、我々のモデルが堅牢性に優れていることを示している。
論文 参考訳(メタデータ) (2024-05-28T13:27:30Z) - Provable Dynamic Fusion for Low-Quality Multimodal Data [94.39538027450948]
動的マルチモーダル融合は、有望な学習パラダイムとして現れる。
広く使われているにもかかわらず、この分野の理論的正当化は依然として顕著に欠落している。
本稿では、一般化の観点から最もポピュラーなマルチモーダル融合フレームワークの下で、この問題に答える理論的理解を提供する。
QMF(Quality-Aware Multimodal Fusion)と呼ばれる新しいマルチモーダル融合フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-03T08:32:35Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Trustworthy Multimodal Regression with Mixture of Normal-inverse Gamma
Distributions [91.63716984911278]
このアルゴリズムは、異なるモードの適応的統合の原理における不確かさを効率的に推定し、信頼できる回帰結果を生成する。
実世界のデータと実世界のデータの両方に対する実験結果から,多モード回帰タスクにおける本手法の有効性と信頼性が示された。
論文 参考訳(メタデータ) (2021-11-11T14:28:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。