論文の概要: Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection
- arxiv url: http://arxiv.org/abs/2510.24816v1
- Date: Tue, 28 Oct 2025 10:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.595804
- Title: Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection
- Title(参考訳): ビデオフェイクニュース検出のためのマルチモーダルベンチマーク「知覚・理解・推論」
- Authors: Cui Yakun, Fushuo Huo, Weijie Shi, Juntao Dai, Hang Du, Zhenghao Zhu, Sirui Han, Yike Guo,
- Abstract要約: 実証分析に基づいてMVFNDB(Multi-modal Video Fake News Detection Benchmark)を提案する。
このベンチマークは10のタスクで構成され、MLLMの認識、理解、検出時の能力の推論を精巧に調査するために設計されている。
複数の特徴を組み合わせることが最終結果に与える影響を検証するため,MVFND-CoTという新しいフレームワークを設計する。
- 参考スコア(独自算出の注目度): 32.26866389632305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of multi-modal large language models (MLLMs) has greatly advanced research into applications for Video fake news detection (VFND) tasks. Traditional video-based FND benchmarks typically focus on the accuracy of the final decision, often failing to provide fine-grained assessments for the entire detection process, making the detection process a black box. Therefore, we introduce the MVFNDB (Multi-modal Video Fake News Detection Benchmark) based on the empirical analysis, which provides foundation for tasks definition. The benchmark comprises 10 tasks and is meticulously crafted to probe MLLMs' perception, understanding, and reasoning capacities during detection, featuring 9730 human-annotated video-related questions based on a carefully constructed taxonomy ability of VFND. To validate the impact of combining multiple features on the final results, we design a novel framework named MVFND-CoT, which incorporates both creator-added content and original shooting footage reasoning. Building upon the benchmark, we conduct an in-depth analysis of the deeper factors influencing accuracy, including video processing strategies and the alignment between video features and model capabilities. We believe this benchmark will lay a solid foundation for future evaluations and advancements of MLLMs in the domain of video fake news detection.
- Abstract(参考訳): MLLM(Multi-modal large language model)の出現は、ビデオフェイクニュース検出(VFND)タスクの応用に大きく進歩した。
従来のビデオベースのFNDベンチマークでは、最終決定の正確さに重点を置いており、多くの場合、検出プロセス全体に対するきめ細かい評価を提供していないため、検出プロセスはブラックボックスになっている。
そこで,実証分析に基づくMVFNDB(Multi-modal Video Fake News Detection Benchmark)を導入し,タスク定義の基礎を提供する。
このベンチマークは10のタスクから構成されており、慎重に構築されたVFNDの分類能力に基づいて9730人の人間による注釈付きビデオ関連質問を特徴とするMLLMの認識、理解、推論能力を調べるために慎重に作成されている。
最終結果に複数の特徴を組み合わせることが及ぼす影響を検証するため,作成者が付加したコンテンツとオリジナル撮影映像の推論の両方を組み込んだMVFND-CoTという新しいフレームワークを設計した。
このベンチマークに基づいて、ビデオ処理戦略や映像特徴とモデル機能との整合性など、精度に影響を与える深い要因を詳細に分析する。
このベンチマークは、ビデオフェイクニュース検出の領域におけるMLLMの今後の評価と進歩の基盤となるものと信じている。
関連論文リスト
- EDVD-LLaMA: Explainable Deepfake Video Detection via Multimodal Large Language Model Reasoning [58.42596067220998]
ディープフェイクビデオ技術は 芸術的な創造を 促進しただけでなく 偽情報を広めやすくした
従来のディープフェイクビデオ検出手法は、その原則の透明性の欠如や、偽造技術に対処する能力の不足といった問題に直面している。
本稿では,Deepfake Video Detection (EDVD) タスクを提案し,EDVD-LLaMAマルチモーダル推論フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-18T10:34:05Z) - MMBench-Video: A Long-Form Multi-Shot Benchmark for Holistic Video Understanding [67.56182262082729]
本稿では,ビデオ理解において大規模視覚言語モデル(LVLM)を厳格に評価するための定量的なベンチマークであるMMBench-Videoを紹介する。
MMBench-VideoにはYouTubeの長いビデオが組み込まれており、フリーフォームの質問を採用し、実用的なユースケースを反映している。
ベンチマークは、慎重に構築された能力の分類に従って人間に注釈を付けることで、モデルの時間的推論スキルを調査するために慎重に作成されている。
論文 参考訳(メタデータ) (2024-06-20T17:26:01Z) - VANE-Bench: Video Anomaly Evaluation Benchmark for Conversational LMMs [64.60035916955837]
VANE-Benchはビデオの異常や矛盾を検出するためのビデオLMMの熟練度を評価するために設計されたベンチマークである。
我々のデータセットは、既存の最先端のテキスト・ビデオ生成モデルを用いて合成された一連のビデオから構成される。
我々は、このベンチマークタスクにおいて、オープンソースとクローズドソースの両方で既存の9つのビデオLMMを評価し、ほとんどのモデルが微妙な異常を効果的に識別するのに困難に直面することを発見した。
論文 参考訳(メタデータ) (2024-06-14T17:59:01Z) - Needle In A Video Haystack: A Scalable Synthetic Evaluator for Video MLLMs [20.168429351519055]
ビデオ理解はマルチモーダル大言語モデル(LMLM)にとって重要な次のステップである
合成ビデオ生成によるベンチマーク構築フレームワークであるVideoNIAH(Video Needle In A Haystack)を提案する。
我々は、プロプライエタリモデルとオープンソースモデルの両方を包括的に評価し、ビデオ理解能力の重大な違いを明らかにする。
論文 参考訳(メタデータ) (2024-06-13T17:50:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。