論文の概要: FCMBench-Video: Benchmarking Document Video Intelligence
- arxiv url: http://arxiv.org/abs/2604.25186v2
- Date: Thu, 30 Apr 2026 03:30:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.655114
- Title: FCMBench-Video: Benchmarking Document Video Intelligence
- Title(参考訳): FCMBench-Video: ドキュメントビデオインテリジェンスのベンチマーク
- Authors: Runze Cui, Fangxin Shang, Yehui Yang, Qing Yang, Yanwu Xu, Tao Chen,
- Abstract要約: FCMBench-Videoは、文書ビデオインテリジェンスのためのベンチマークである。
文書認識、時間的根拠付け、根拠に基づく推論を評価する。
495の原子ビデオで構成され、1200の長ビデオで構成されている。
- 参考スコア(独自算出の注目度): 8.515144837095095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document understanding is a critical capability in financial credit review, onboarding, and remote verification, where both decision accuracy and evidence traceability matter. Compared with static document images, document videos present a temporally redundant and sequentially unfolding evidence stream, require evidence integration across frames, and preserve acquisition-process cues relevant to authenticity-sensitive and anti-fraud review. We introduce FCMBench-Video, a benchmark for document-video intelligence that evaluates document perception, temporal grounding, and evidence-grounded reasoning under realistic capture conditions. For privacy-compliant yet realistic data at scale, we organize construction as an atomic-acquisition and composition workflow that records reusable single-document clips, applies controlled degradations, and assembles long-form multi-document videos with prescribed temporal spans. FCMBench-Video is built from 495 atomic videos composed into 1,200 long-form videos paired with 11,322 expert-annotated question--answer instances, covering 28 document types over 20s--60s duration tiers and 5,960 Chinese / 5,362 English instances. Evaluations on nine recent Video-MLLMs show that FCMBench-Video provides meaningful separation across systems and capabilities: counting is the most duration-sensitive task, Cross-Document Validation and Evidence-Grounded Selection probe higher-level evidence integration, and Visual Prompt Injection provides a complementary robustness dimension. The overall score distribution is broad and approximately bell-shaped, indicating a benchmark that is neither saturated nor dominated by trivial cases. Together, these results position FCMBench-Video as a reproducible benchmark for tracking Video-MLLM progress on document-video understanding and probing capability boundaries in authenticity-sensitive credit-domain applications.
- Abstract(参考訳): 文書理解は、意思決定の正確さと証拠のトレーサビリティの両方が重要となる、金融クレジットのレビュー、オンボーディング、リモート検証において重要な能力である。
静的な文書画像と比較すると、文書ビデオは時間的に冗長で順次展開されるエビデンスストリームを示し、フレーム間のエビデンス統合を必要とし、認証に敏感で反詐欺的レビューに関連する買収プロセスの手がかりを保持する。
FCMBench-Videoは,現実的な捕獲条件下での文書認識,時間的根拠,証拠的根拠に基づく推論を評価する,文書映像インテリジェンスのためのベンチマークである。
プライバシーに順応するが、大規模な現実的なデータに対して、我々は、再利用可能な単一文書クリップを記録し、制御された劣化を適用し、所定の時間間隔で長文の多文書ビデオを組み立てる、原子獲得と合成のワークフローとして構築を組織する。
FCMBench-Videoは、495の原子ビデオで構成され、1200の長文ビデオと11,322のエキスパート注釈付き質問応答インスタンスで構成され、20代から60代までの28のドキュメントタイプと5,960の中国語/5,362の英語のインスタンスを含んでいる。
最近の9つのビデオMLLMの評価によると、FCMBench-Videoは、最も時間に敏感なタスクであるカウント、クロスドキュメントバリデーションとエビデンス・グラウンド(Evidence-Grounded Selection probe)、高レベルのエビデンス統合、Visual Prompt Injection(Visual Prompt Injection)など、システムと機能間で有意義な分離を提供する。
スコアの分布は広く、おおよそベル型であり、飽和せず、自明なケースに支配されないベンチマークを示している。
これらの結果と合わせて、FCMBench-Videoは、信頼度に敏感なクレジットドメインアプリケーションにおけるビデオMLLM進捗の追跡と、機能境界の探索のための再現可能なベンチマークとして位置づけられた。
関連論文リスト
- Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - Perception, Understanding and Reasoning, A Multimodal Benchmark for Video Fake News Detection [32.26866389632305]
実証分析に基づいてMVFNDB(Multi-modal Video Fake News Detection Benchmark)を提案する。
このベンチマークは10のタスクで構成され、MLLMの認識、理解、検出時の能力の推論を精巧に調査するために設計されている。
複数の特徴を組み合わせることが最終結果に与える影響を検証するため,MVFND-CoTという新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-28T10:04:13Z) - VITED: Video Temporal Evidence Distillation [49.38292490256531]
そこで我々は,チェーン・オブ・エビデンス推論による複雑なビデオ質問応答について検討した。
モデルは、固定数のフレームを均一にサンプリングするため、多段階の推論に苦労する。
本稿では,既存のビデオQAデータセットをエビデンス・アソシエーション・チェーンで拡張するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T06:30:02Z) - On the Consistency of Video Large Language Models in Temporal Comprehension [57.985769348320616]
ビデオ大言語モデル(Video-LLMs)は、時間的に言語クエリを解析し、ビデオモーメントを検索することができる。
予測整合性 - 時間的根拠の堅牢性と信頼性を示す重要な指標である。
論文 参考訳(メタデータ) (2024-11-20T00:47:17Z) - LAVIB: A Large-scale Video Interpolation Benchmark [58.194606275650095]
LAVIBは、Webから自動パイプラインを通じてソースされる高解像度ビデオの大規模なコレクションで構成されている。
各ビデオの運動の大きさ、輝度条件、フレームのシャープネス、コントラストについてメトリクスが計算される。
LAVIBには17KのUltra-HDビデオから283Kのクリップが含まれ、77.6時間に及ぶ。
論文 参考訳(メタデータ) (2024-06-14T06:44:01Z) - FOCAL: A Forgery Localization Framework based on Video Coding
Self-Consistency [26.834506269499094]
本稿では,ビデオフレーム内における符号化トレースの自己整合性を検証するビデオフォージェリーローカライゼーションフレームワークを提案する。
全体フレームワークは、時間的スプライシングと空間的スプライシングの2つの典型的なフォージェリーシナリオで検証された。
実験結果から,空間スプライシングにおける時間的スプライシングの局所化に関する最先端技術の改善と,空間スプライシングの新たな取組における有望な性能が示された。
論文 参考訳(メタデータ) (2020-08-24T13:55:14Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。