論文の概要: A New Dataset and Benchmark for Grounding Multimodal Misinformation
- arxiv url: http://arxiv.org/abs/2509.08008v1
- Date: Mon, 08 Sep 2025 10:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.198016
- Title: A New Dataset and Benchmark for Grounding Multimodal Misinformation
- Title(参考訳): マルチモーダル情報のグラウンド化のための新しいデータセットとベンチマーク
- Authors: Bingjian Yang, Danni Xu, Kaipeng Niu, Wenxuan Liu, Zheng Wang, Mohan Kankanhalli,
- Abstract要約: マルチモーダルコンテンツを検証し,モダリティ間のミスリードセグメントをローカライズするグラウンディング・マルチモーダル誤報(GroundMM)の課題を紹介する。
このタスクのための最初の実世界のデータセットである GroundLie360 は、誤情報型の分類、テキスト、音声、視覚の微粒化アノテーション、およびSnopes のエビデンスとアノテータ推論による検証を特徴としている。
VLMに基づくQAベースラインであるFakeMarkも提案する。
- 参考スコア(独自算出の注目度): 18.065066527301948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of online misinformation videos poses serious societal risks. Current datasets and detection methods primarily target binary classification or single-modality localization based on post-processed data, lacking the interpretability needed to counter persuasive misinformation. In this paper, we introduce the task of Grounding Multimodal Misinformation (GroundMM), which verifies multimodal content and localizes misleading segments across modalities. We present the first real-world dataset for this task, GroundLie360, featuring a taxonomy of misinformation types, fine-grained annotations across text, speech, and visuals, and validation with Snopes evidence and annotator reasoning. We also propose a VLM-based, QA-driven baseline, FakeMark, using single- and cross-modal cues for effective detection and grounding. Our experiments highlight the challenges of this task and lay a foundation for explainable multimodal misinformation detection.
- Abstract(参考訳): オンラインの誤報ビデオの拡散は、深刻な社会的リスクを引き起こす。
現在のデータセットと検出方法は、主に、後処理データに基づくバイナリ分類または単一モダリティのローカライゼーションをターゲットにしており、説得的誤報に対処するために必要な解釈性が欠如している。
本稿では,マルチモーダル内容の検証と,モダリティ間のミスリードセグメントのローカライズを行うGroundMM(GroundMM)の課題を紹介する。
このタスクのための最初の実世界のデータセットである GroundLie360 は、誤情報型の分類、テキスト、音声、視覚の微粒化アノテーション、およびSnopes のエビデンスとアノテータ推論による検証を特徴としている。
VLMに基づくQAベースラインであるFakeMarkも提案する。
本研究は,この課題を浮き彫りにして,マルチモーダルな誤情報検出のための基礎を築いた。
関連論文リスト
- Omni Survey for Multimodality Analysis in Visual Object Tracking [34.25429207685124]
本稿では,Multi-Modal Visual Object Tracking (MMVOT) の最も重要な課題について検討する。
MMVOTは、データ収集、モダリティアライメントとアノテーション、モデル設計、評価の4つの重要な側面において、シングルモーダルトラッキングとは異なる。
論文 参考訳(メタデータ) (2025-08-18T15:18:59Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Adaptation Method for Misinformation Identification [8.581136866856255]
マルチモーダルフェイクニュース検出のためのアクティブドメイン適応(ADA)フレームワークであるADOSEを提案する。
ADOSEは、検出性能を改善するために、ターゲットサンプルの小さなサブセットを積極的に注釈付けする。
ADOSEは既存のADAメソッドを2.72%$sim$ 14.02%で上回り、我々のモデルの優位性を示している。
論文 参考訳(メタデータ) (2025-04-19T04:18:32Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Read, Look or Listen? What's Needed for Solving a Multimodal Dataset [7.0430001782867]
マルチモーダル・データセットを解析するための2段階の手法を提案する。これは、人間のアノテーションの小さなシードを利用して、各マルチモーダル・インスタンスをその処理に必要なモダリティにマッピングする。
ビデオ質問応答データセットであるTVQAに我々のアプローチを適用し、ほとんどの質問が特定のモダリティに対して実質的な偏見を伴わずに単一のモダリティで答えられることを発見した。
我々は、MERLOT Reserveを分析し、テキストや音声よりも画像に基づく質問に苦しむが、聴覚話者の識別にも苦しむことを発見した。
論文 参考訳(メタデータ) (2023-07-06T08:02:45Z) - Factorized Contrastive Learning: Going Beyond Multi-view Redundancy [116.25342513407173]
本稿では,マルチビュー冗長性を超えた新しいマルチモーダル表現学習法であるFacterCLを提案する。
大規模な実世界のデータセットでは、FacterCLは共有情報とユニークな情報の両方をキャプチャし、最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-06-08T15:17:04Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。