論文の概要: GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2601.20618v1
- Date: Wed, 28 Jan 2026 13:51:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.958008
- Title: GDCNet: Generative Discrepancy Comparison Network for Multimodal Sarcasm Detection
- Title(参考訳): GDCNet:マルチモーダルサーカスム検出のための生成的離散性比較ネットワーク
- Authors: Shuguang Zhang, Junhong Lian, Guoxin Yu, Baoxun Xu, Xiang Ao,
- Abstract要約: マルチモーダルsarcasm Detection (MSD) は、モダリティ間の意味的不一致をモデル化することによって、画像とテキストのペア内のsarcasmを識別することを目的としている。
本稿では,GDCNet(Generative Discrepancy Comparison Network)を提案する。
GDCNetは、生成した目的記述と原文間の意味的・感情的不一致を、視覚的・テキスト的忠実度の測定とともに計算する。
- 参考スコア(独自算出の注目度): 7.415126751461174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sarcasm detection (MSD) aims to identify sarcasm within image-text pairs by modeling semantic incongruities across modalities. Existing methods often exploit cross-modal embedding misalignment to detect inconsistency but struggle when visual and textual content are loosely related or semantically indirect. While recent approaches leverage large language models (LLMs) to generate sarcastic cues, the inherent diversity and subjectivity of these generations often introduce noise. To address these limitations, we propose the Generative Discrepancy Comparison Network (GDCNet). This framework captures cross-modal conflicts by utilizing descriptive, factually grounded image captions generated by Multimodal LLMs (MLLMs) as stable semantic anchors. Specifically, GDCNet computes semantic and sentiment discrepancies between the generated objective description and the original text, alongside measuring visual-textual fidelity. These discrepancy features are then fused with visual and textual representations via a gated module to adaptively balance modality contributions. Extensive experiments on MSD benchmarks demonstrate GDCNet's superior accuracy and robustness, establishing a new state-of-the-art on the MMSD2.0 benchmark.
- Abstract(参考訳): マルチモーダルsarcasm Detection (MSD) は、モダリティ間の意味的不一致をモデル化することによって、画像とテキストのペア内のsarcasmを識別することを目的としている。
既存の手法では、不整合を検出するためにクロスモーダルな埋め込みミスアライメントを利用することが多いが、視覚的およびテキスト的コンテンツがゆるやかに関連づけられたり、意味的に間接的に競合する。
最近のアプローチでは、大きな言語モデル(LLM)を利用してサーカシックな手がかりを生成するが、これらの世代固有の多様性と主観性は、しばしばノイズをもたらす。
これらの制約に対処するため,GDCNet(Generative Discrepancy Comparison Network)を提案する。
このフレームワークは、MLLM(Multimodal LLMs)によって生成された記述的、事実的に根拠付けられたイメージキャプションを安定なセマンティックアンカーとして利用することにより、モダル間の衝突を捉えている。
具体的には、GDCNetは、生成した目的記述と原文間の意味的・感情的不一致を、視覚的・テキスト的忠実度の測定とともに計算する。
これらの相違は、適応的なモダリティ貢献のバランスをとるためにゲートモジュールを介して視覚的およびテキスト的表現と融合する。
MSDベンチマークの大規模な実験では、GDCNetの精度と堅牢性が向上し、MMSD2.0ベンチマークの新たな最先端性を確立した。
関連論文リスト
- TANDEM: Temporal-Aware Neural Detection for Multimodal Hate Speech [11.020614074201346]
本稿では,音声・視覚的ヘイト検出を構造化推論問題に変換する統合フレームワークであるTANDEMを紹介する。
提案手法では,視覚言語モデルと音声言語モデルが相互に最適化される,新しいタンデム強化学習戦略を採用している。
TANDEM はゼロショットとコンテキスト拡張ベースラインを大きく上回り、HateMM のターゲット識別において 0.73 F1 を達成している。
論文 参考訳(メタデータ) (2026-01-16T10:52:12Z) - SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment [8.657941729790599]
本稿では,パッチの冗長性と曖昧性に体系的に対処するセマンティック・エンハンスト・パッチ・スライミング(SEPS)フレームワークを紹介する。
提案手法では,密文と疎文の両方から統合されたセマンティクスを統合するための2段階の機構を用いて,視覚的パッチを識別する。
Flickr30KとMS-COCOデータセットの実験は、SEPSが優れたパフォーマンスを達成することを検証する。
論文 参考訳(メタデータ) (2025-11-03T09:41:32Z) - Dual Modality-Aware Gated Prompt Tuning for Few-Shot Multimodal Sarcasm Detection [1.515687944002438]
本稿では, DMDP (Deep Modality-Disentangled Prompt Tuning) を紹介した。
DMPは、テキストとビジュアルエンコーダに対して、ゲート付き、モダリティ固有のディーププロンプトを使用する。
レイヤ間でのプロンプト共有機構を導入し、低レベルと高レベルのセマンティックキューの両方をモデルに集約する。
論文 参考訳(メタデータ) (2025-07-06T17:16:34Z) - ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。
制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。
このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文 参考訳(メタデータ) (2025-06-04T05:56:19Z) - Multimodal LLM-Guided Semantic Correction in Text-to-Image Diffusion [52.315729095824906]
MLLM Semantic-Corrected Ping-Pong-Ahead Diffusion (PPAD) は,マルチモーダル大言語モデル(MLLM)を推論中の意味的オブザーバとして導入する新しいフレームワークである。
中間世代をリアルタイムに分析し、潜在意味的不整合を識別し、フィードバックを制御可能な信号に変換し、残りの認知ステップを積極的に導く。
大規模な実験ではPPADの大幅な改善が示されている。
論文 参考訳(メタデータ) (2025-05-26T14:42:35Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - FiLMing Multimodal Sarcasm Detection with Attention [0.7340017786387767]
サルカスムの検出は、意図された意味がその表面的な意味によって示されるものと異なる自然言語表現を特定する。
本稿では,入力テキストと画像属性のコンテキスト不整合を組み込むために,RoBERTaモデルとコアテンション層を用いた新しいアーキテクチャを提案する。
提案手法は,Twitterのマルチモーダル検出データセットの6.14%のF1スコアにおいて,既存の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-09T06:33:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。