Fugu-MT 論文翻訳(概要): When Seeing Is Not Believing -- A Benchmark for Search-Grounded Video Misinformation Detection

論文の概要: When Seeing Is Not Believing -- A Benchmark for Search-Grounded Video Misinformation Detection

arxiv url: http://arxiv.org/abs/2606.04098v1
Date: Tue, 02 Jun 2026 18:03:35 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.304031
Title: When Seeing Is Not Believing -- A Benchmark for Search-Grounded Video Misinformation Detection
Title（参考訳）: 視聴が信じていない場合-検索対象の誤情報検出のためのベンチマーク
Authors: Tao Yu, Yujia Yang, Shenghua Chai, Zhang Jinshuai, Haopeng Jin, Hao Wang, Minghui Zhang, Zhongtian Luo, Yuchen Long, Xinlong Chen, Jiabing Yang, Zhaolu Kang, Yuxuan Zhou, Zhengyu Man, Xinming Wang, Hongzhu Yi, Zheqi He, Xi Yang, Yan Huang, Liang Wang,
Abstract要約: EVID-Benchは、ビデオ誤情報検出のためのベンチマークである。 AI生成、シングルソース編集、マルチソース編集の3つのカテゴリにまたがる9つの操作タイプにまたがる222のビデオで構成されている。最良のシステムは61.43%のポイントレベルの精度と43.24%のビデオレベルの精度しか達成していないが、AI生成による操作は特に困難である。
参考スコア（独自算出の注目度）: 21.933691657055075
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video misinformation increasingly operates at the semantic and evidential level: authentic footage may be selectively edited, temporally reordered, spliced across sources, or augmented with AI-generated content to construct false narratives. Such evidence-dependent manipulations cannot be reliably verified from the input video alone, because the missing, reordered, replaced, or recontextualized evidence lies outside the video itself. We introduce \textbf{EVID-Bench}, a benchmark for search-grounded video misinformation detection, where a system must search the open web for related videos and identify what information is false through cross-video comparison. EVID-Bench comprises 222 videos spanning 9 manipulation types across 3 categories: AI generation, single-source editing, and multi-source editing. All samples are verified to be undetectable by frontier models through visual inspection alone. We evaluate nine frontier multimodal models using a retrieval-augmented verification baseline. The best system achieves only 61.43\% point-level accuracy and 43.24\% video-level accuracy, while AI-generated manipulations remain especially challenging. Error analysis reveals recurring challenges: models fixate on irrelevant anchors, misattribute synthetic content to editorial splicing, and terminate search prematurely before fully explaining the manipulation.
Abstract（参考訳）: 真正な映像は、選択的に編集されたり、時間的に並べ替えられたり、ソースに散らばったり、AIが生成したコンテンツを拡張して偽の物語を作ることができる。このようなエビデンスに依存した操作は、ビデオ自体の外にある、欠落した、再注文された、置換された、あるいは再文書化されたエビデンスであるため、入力されたビデオからのみ確実に検証することはできない。本稿では,検索対象のビデオ誤情報検出のベンチマークである‘textbf{EVID-Bench} を紹介する。 EVID-Benchは、AI生成、シングルソース編集、マルチソース編集という3つのカテゴリにまたがる9つの操作タイプにまたがる222のビデオで構成されている。すべてのサンプルは、視覚検査だけでフロンティアモデルによって検出できないことが確認される。検索拡張検証ベースラインを用いて,9つのフロンティアマルチモーダルモデルを評価する。最良のシステムは、ポイントレベルの精度が61.43\%、ビデオレベルの精度が43.24\%であるのに対して、AI生成による操作は特に難しいままである。モデルが無関係なアンカーに固定し、編集スプライシングに合成コンテンツを誤解し、操作を完全に説明する前に早期に検索を終了する。

関連論文リスト

Beyond Seeing Is Believing: On Crowdsourced Detection of Audiovisual Deepfakes [4.186575888568895]
本研究は,観衆が操作されたビデオと真正性をどのように区別するかを連続的に測定することで,聴覚的ディープフェイク検出について検討する。我々は,AV-Deepfake1MとTrusted Media Challengeデータセットを用いて,Prolificのクラウドソーシング調査を行った。結果は、群衆労働者が本物のビデオを操作したと誤分類することは滅多にないが、多くの操作を見逃し、合意はビデオ全体で制限されていることを示している。
論文参考訳（メタデータ） (2026-05-06T11:48:04Z)
Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文参考訳（メタデータ） (2025-12-28T19:08:27Z)
DAVID-XR1: Detecting AI-Generated Videos with Explainable Reasoning [58.70446237944036]
DAVID-Xは、AI生成ビデオに詳細な欠陥レベル、時間空間アノテーションと有理書を組み合わせた最初のデータセットである。 DAVID-XR1は、視覚的推論の解釈可能な連鎖を提供するために設計されたビデオ言語モデルである。以上の結果から,AI生成ビデオコンテンツの信頼性確認のための説明可能な検出手法が期待できることを示す。
論文参考訳（メタデータ） (2025-06-13T13:39:53Z)
BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation [77.55074597806035]
GenBuster-200Kは、200Kの高解像度ビデオクリップを備えた、大規模で高品質なAI生成ビデオデータセットである。 BusterXは、マルチモーダル大言語モデル(MLLM)と強化学習を活用した、AI生成のビデオ検出および説明フレームワークである。
論文参考訳（メタデータ） (2025-05-19T02:06:43Z)
VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文参考訳（メタデータ） (2024-06-14T17:59:01Z)
Turns Out I'm Not Real: Towards Robust Detection of AI-Generated Videos [16.34393937800271]
高品質なビデオを作成するための生成モデルは、デジタル整合性とプライバシーの脆弱性に関する懸念を提起している。ディープフェイクスのビデオと戦うための最近の研究は、ガン生成サンプルを正確に識別する検出器を開発した。本稿では,複数の最先端(SOTA)生成モデルから合成された映像を検出するための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-13T21:52:49Z)
VGMShield: Mitigating Misuse of Video Generative Models [7.1819804607793705]
VGMShieldは、フェイクビデオ生成のライフサイクルを通じて、単純だが効果的な軽減策のセットである。まずは偽のビデオ検出から始め、生成されたビデオにユニークさがあるかどうかを理解します。そこで本研究では,偽動画を生成したモデルにマッピングする,偽ビデオソース追跡問題について検討する。
論文参考訳（メタデータ） (2024-02-20T16:39:23Z)
AVTENet: A Human-Cognition-Inspired Audio-Visual Transformer-Based Ensemble Network for Video Deepfake Detection [49.81915942821647]
本研究では、ディープフェイクビデオを検出するために、オーディオ・ヴィジュアル・トランスフォーマー・ベースのアンサンブルネットワーク(AVTENet)を導入する。評価には、最近リリースされたマルチモーダルオーディオビデオFakeAVCelebデータセットを使用する。 AVTENetとその変種およびいくつかの既存手法をFakeAVCelebデータセットの複数のテストセット上で評価する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。