論文の概要: MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
- arxiv url: http://arxiv.org/abs/2510.23299v1
- Date: Mon, 27 Oct 2025 13:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.553002
- Title: MMSD3.0: A Multi-Image Benchmark for Real-World Multimodal Sarcasm Detection
- Title(参考訳): MMSD3.0:実世界のマルチモーダルサーカスム検出のためのマルチイメージベンチマーク
- Authors: Haochen Zhao, Yuyao Kong, Yongxiu Xu, Gaopeng Gou, Hongbo Xu, Yubin Wang, Haoliang Zhang,
- Abstract要約: MMSD3.0は、ツイートとAmazonレビューからキュレートされたマルチイメージのサンプルからなる新しいベンチマークである。
本稿では,画像間接続を捉えるために,画像間シーケンスを対象とするクロスイメージ推論モデル(CIRM)を提案する。
さらに,テキスト画像対応に基づく関連誘導・微粒なクロスモーダル融合機構を導入し,統合時の情報損失を低減する。
- 参考スコア(独自算出の注目度): 12.041688144153532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite progress in multimodal sarcasm detection, existing datasets and methods predominantly focus on single-image scenarios, overlooking potential semantic and affective relations across multiple images. This leaves a gap in modeling cases where sarcasm is triggered by multi-image cues in real-world settings. To bridge this gap, we introduce MMSD3.0, a new benchmark composed entirely of multi-image samples curated from tweets and Amazon reviews. We further propose the Cross-Image Reasoning Model (CIRM), which performs targeted cross-image sequence modeling to capture latent inter-image connections. In addition, we introduce a relevance-guided, fine-grained cross-modal fusion mechanism based on text-image correspondence to reduce information loss during integration. We establish a comprehensive suite of strong and representative baselines and conduct extensive experiments, showing that MMSD3.0 is an effective and reliable benchmark that better reflects real-world conditions. Moreover, CIRM demonstrates state-of-the-art performance across MMSD, MMSD2.0 and MMSD3.0, validating its effectiveness in both single-image and multi-image scenarios.
- Abstract(参考訳): マルチモーダルサルカズム検出の進歩にもかかわらず、既存のデータセットとメソッドは、主に単一イメージのシナリオに焦点を当て、複数の画像にまたがる潜在的な意味的および感情的関係を見越す。
これにより、現実の設定におけるマルチイメージの手がかりによってサルカズムが引き起こされるモデリングケースのギャップが残される。
このギャップを埋めるために、ツイートとAmazonレビューからキュレートされたマルチイメージのサンプルからなる新しいベンチマークであるMMSD3.0を紹介します。
さらに,画像間接続をキャプチャするクロスイメージシーケンスモデル(CIRM, Cross- Image Reasoning Model)を提案する。
さらに,テキスト画像対応に基づく関連誘導・微粒なクロスモーダル融合機構を導入し,統合時の情報損失を低減する。
我々は,強靭で代表的なベースラインの包括的スイートを構築し,MMSD3.0は実環境をよりよく反映した,効果的で信頼性の高いベンチマークであることを示す。
さらに、CIRMは、MMSD、MMSD2.0、MMSD3.0にまたがる最先端のパフォーマンスを示し、シングルイメージとマルチイメージの両方のシナリオでの有効性を検証する。
関連論文リスト
- CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Migician: Revealing the Magic of Free-Form Multi-Image Grounding in Multimodal Large Language Models [79.59567114769513]
複数の画像に対して自由かつ正確なグラウンド化を行うことができる最初のマルチイメージグラウンドモデルであるMigicianを紹介する。
我々のモデルは、より優れたマルチイメージグラウンド機能を実現し、最高のMLLMを24.94%上回り、さらに大きな70Bモデルを超えた。
論文 参考訳(メタデータ) (2025-01-10T07:56:23Z) - SIDA: Social Media Image Deepfake Detection, Localization and Explanation with Large Multimodal Model [48.547599530927926]
ソーシャルメディア上で共有される合成画像は、広範囲の聴衆を誤解させ、デジタルコンテンツに対する信頼を損なう可能性がある。
ソーシャルメディア画像検出データセット(SID-Set)を紹介する。
本稿では,SIDA という画像深度検出,局所化,説明の枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-05T16:12:25Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - Many-to-many Image Generation with Auto-regressive Diffusion Models [59.5041405824704]
本稿では,与えられた画像集合から関連画像系列を生成可能な多対多画像生成のためのドメイン汎用フレームワークを提案する。
我々は,25個の相互接続された画像を含む12Mの合成マルチイメージサンプルを含む,新しい大規模マルチイメージデータセットMISを提案する。
我々はM2Mを学習し、M2Mは多対多生成のための自己回帰モデルであり、各画像は拡散フレームワーク内でモデル化される。
論文 参考訳(メタデータ) (2024-04-03T23:20:40Z) - VERITE: A Robust Benchmark for Multimodal Misinformation Detection
Accounting for Unimodal Bias [17.107961913114778]
マルチモーダルの誤報は ソーシャルメディアのプラットフォームで 増え続けている問題です
本研究では,広範に使用されているMDDベンチマークにおいて,一様偏差の存在を調査・同定する。
リアルな合成学習データを生成するための新しい手法であるCrossmodal HArd Synthetic MisAlignment (CHASMA)を導入する。
論文 参考訳(メタデータ) (2023-04-27T12:28:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。