論文の概要: PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention
- arxiv url: http://arxiv.org/abs/2605.02447v1
- Date: Mon, 04 May 2026 10:47:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.246202
- Title: PC-MNet: Dual-Level Congruity Modeling for Multimodal Sarcasm Detection via Polarity-Modulated Attention
- Title(参考訳): PC-MNet:極性変調アテンションによるマルチモーダルサーカスム検出のためのデュアルレベルコングロリティモデリング
- Authors: Maoheng Li, Ling Zhou, Xiaohua Huang, Rubing Huang, Wenming Zheng, Guoying Zhao,
- Abstract要約: この研究は、人間のコミュニケーションにおける微妙な実用的不整合をモデル化するための、堅牢で分離されたパラダイムを提供する。
textttMUStARDベンチマークと、その素早い相関緩和型バランスデータセットの実験は、我々のアプローチが新しい最先端のパフォーマンスを達成することを実証している。
- 参考スコア(独自算出の注目度): 32.62063298936575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal sarcasm detection, which aims to precisely identify pragmatic incongruities between literal text and nonverbal cues, has gained substantial attention in multimodal understanding. Recent advancements have predominantly relied on naïve similarity-based attention mechanisms and uniform late fusion strategies.Furthermore, given that functional entanglement restricts traditional late fusions, we incorporate a scalar congruity routing mechanism and a prior-guided contextual graph. This mechanism anchors a generalized incongruity manifold through a two-stage asymmetric optimization driven by inconsistency-aware contrastive learning, selectively fusing only the most discriminative multi-granularity evidence. Extensive experiments on the \texttt{MUStARD} benchmark and its spurious-correlation-mitigated balanced datasets demonstrate that our approach achieves new state-of-the-art performance, surpassing the strongest multimodal baseline by a substantial 3.14\% improvement in Macro-F1. By architecturally isolating atomic, composition, and contextual conflicts. This work provides a robust, decoupled paradigm for modeling subtle pragmatic incongruities in human communication.
- Abstract(参考訳): リテラルテキストと非言語的手がかりの実用的矛盾を正確に識別することを目的としたマルチモーダルサルカズム検出は、マルチモーダル理解において大きな注目を集めている。
近年の進歩はナイーブ類似性に基づく注意機構と一様後期融合戦略に大きく依存しているが、機能的絡み合いが従来の後期融合を制限することを考えると、スカラー・コングルリティ・ルーティング機構と事前誘導された文脈グラフが組み込まれている。
この機構は、2段階の非対称な最適化を通じて一般化された不整合多様体をアンカーし、矛盾を意識したコントラスト学習により、最も識別性の高い多粒性証拠のみを選択的に融合させる。
また, <texttt{MUStARD} ベンチマークとそのスプリアス相関緩和バランスデータセットによる実験により, この手法が新たな最先端性能を達成し, マクロF1 の3.14 % の大幅な改善によって最強のマルチモーダルベースラインを超えることを示した。
アーキテクチャ上、アトミック、コンポジション、コンテクストの衝突を分離する。
この研究は、人間のコミュニケーションにおける微妙な実用的不整合をモデル化するための、堅牢で分離されたパラダイムを提供する。
関連論文リスト
- URMF: Uncertainty-aware Robust Multimodal Fusion for Multimodal Sarcasm Detection [17.19666367498091]
マルチモーダルサルカズム検出(MSD)は,テキストと画像間の意味的不一致から皮肉な意図を識別することを目的としている。
本稿では,対話や融合におけるモダリティの信頼性を明示的にモデル化する統一フレームワークであるUncertainty-aware Robust Multimodal Fusion (URMF)を提案する。
URMFは、強い単調、マルチモーダル、MLLMベースのベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-08T06:50:43Z) - Feature-level Interaction Explanations in Multimodal Transformers [1.7101146971136896]
マルチモーダルトランスフォーマーは、異なるモーダルが共同で意思決定をどのように支援するかを明確にすることなく、予測を生成する。
本稿では,凍結した事前学習エンコーダからトークン/パッチシーケンスを直接操作する構造化Mixture-of-Experts層であるFeature-level I2MoEを提案する。
我々は,帰属とトップK%マスキングを組み合わせ,忠実度を評価する専門的な説明パイプラインを開発する。
論文 参考訳(メタデータ) (2026-03-04T18:24:31Z) - Together, Then Apart: Revisiting Multimodal Survival Analysis via a Min-Max Perspective [22.583594870571336]
この研究は、アライメントと特徴性の二重レンズによる多モードサバイバル分析を再考する。
We introduced Together-Then-Apart, a unified min-max optimization framework that simultaneously models shared and modality-specific representations。
我々の定式化は、堅牢で、解釈可能で、生物学的に有意義なマルチモーダルサバイバル分析において、アライメントと特異性をどのように共同で達成できるかという新しい理論的視点を提供する。
論文 参考訳(メタデータ) (2025-11-22T15:10:46Z) - Multiview Manifold Evidential Fusion for PolSAR Image Classification [51.41332458376411]
我々は,PolSAR多様体学習とエビデンス融合を統合アーキテクチャに統合する新しいフレームワークを提案する。
実世界の3つのPolSARデータセットの実験により、提案手法は、精度、堅牢性、解釈可能性において、既存のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2025-10-13T09:05:51Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - Asynchronous Multimodal Video Sequence Fusion via Learning Modality-Exclusive and -Agnostic Representations [19.731611716111566]
本稿では,モダリティ学習のためのマルチモーダル融合手法を提案する。
我々は、モーダル内の信頼性のあるコンテキストダイナミクスをキャプチャする予測的自己アテンションモジュールを導入する。
階層的クロスモーダルアテンションモジュールは、モダリティ間の価値ある要素相関を探索するために設計されている。
両識別器戦略が提示され、異なる表現を敵対的に生成することを保証する。
論文 参考訳(メタデータ) (2024-07-06T04:36:48Z) - Cross-Attention is Not Enough: Incongruity-Aware Dynamic Hierarchical
Fusion for Multimodal Affect Recognition [69.32305810128994]
モダリティ間の同調性は、特に認知に影響を及ぼすマルチモーダル融合の課題となる。
本稿では,動的モダリティゲーティング(HCT-DMG)を用いた階層型クロスモーダルトランスを提案する。
HCT-DMG: 1) 従来のマルチモーダルモデルを約0.8Mパラメータで上回り、2) 不整合が認識に影響を及ぼすハードサンプルを認識し、3) 潜在レベルの非整合性をクロスモーダルアテンションで緩和する。
論文 参考訳(メタデータ) (2023-05-23T01:24:15Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。