論文の概要: Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
- arxiv url: http://arxiv.org/abs/2601.06943v1
- Date: Sun, 11 Jan 2026 15:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.0828
- Title: Watching, Reasoning, and Searching: A Video Deep Research Benchmark on Open Web for Agentic Video Reasoning
- Title(参考訳): ビデオの視聴, 推論, 検索: エージェント的ビデオ推論のためのOpen Webのディープリサーチベンチマーク
- Authors: Chengwen Liu, Xiaomin Yu, Zhuoyue Chang, Zhe Huang, Shuo Zhang, Heng Lian, Kunyi Wang, Rui Xu, Sen Hu, Jianheng Hou, Hao Peng, Chengwei Qin, Xiaobin Hu, Hong Peng, Ronghao Chen, Huacan Wang,
- Abstract要約: VideoDRは、オープンウェブ環境でビデオエージェントを研究するための最初のビデオディープリサーチベンチマークである。
VideoDRは、ビデオ条件付きオープンドメインのビデオ質問応答、クロスフレームの視覚的アンカー抽出、インタラクティブなWeb検索、共同ビデオとWebのエビデンスに対するマルチホップ推論などに焦点を当てている。
- 参考スコア(独自算出の注目度): 32.71093573332936
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In real-world video question answering scenarios, videos often provide only localized visual cues, while verifiable answers are distributed across the open web; models therefore need to jointly perform cross-frame clue extraction, iterative retrieval, and multi-hop reasoning-based verification. To bridge this gap, we construct the first video deep research benchmark, VideoDR. VideoDR centers on video-conditioned open-domain video question answering, requiring cross-frame visual anchor extraction, interactive web retrieval, and multi-hop reasoning over joint video-web evidence; through rigorous human annotation and quality control, we obtain high-quality video deep research samples spanning six semantic domains. We evaluate multiple closed-source and open-source multimodal large language models under both the Workflow and Agentic paradigms, and the results show that Agentic is not consistently superior to Workflow: its gains depend on a model's ability to maintain the initial video anchors over long retrieval chains. Further analysis indicates that goal drift and long-horizon consistency are the core bottlenecks. In sum, VideoDR provides a systematic benchmark for studying video agents in open-web settings and reveals the key challenges for next-generation video deep research agents.
- Abstract(参考訳): 実世界のビデオ質問応答のシナリオでは、ビデオはローカライズされた視覚的手がかりのみを提供するが、検証された答えはオープンウェブに分散する。
このギャップを埋めるため、最初のビデオディープリサーチベンチマークであるVideoDRを構築した。
ビデオDRは,ビデオ条件付きオープンドメインビデオ質問応答,クロスフレーム視覚的アンカー抽出,インタラクティブWeb検索,複数ホップ推論を中心とし,厳密な人間のアノテーションと品質管理により,6つのセマンティックドメインにまたがる高品質なビデオ深層調査サンプルを得る。
本稿では,複数のクローズドソースおよびオープンソースマルチモーダルな大規模言語モデルをWorkflowとAgenticの両方のパラダイムで評価し,AgenticがWorkflowより一貫して優れているわけではないことを示す。
さらなる分析は、ゴールドリフトとロングホライゾンの一貫性がコアボトルネックであることを示している。
まとめると、VideoDRは、オープンウェブ環境でビデオエージェントを研究するための体系的なベンチマークを提供し、次世代のビデオディープリサーチエージェントにとって重要な課題を明らかにする。
関連論文リスト
- Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning [33.37714717781103]
VideoMindは、ビデオ理解のための新しいビデオ言語エージェントである。
ビデオの時間的推論に不可欠な機能を特定し,ロールベースのエージェントワークフローを開発する。
軽量なLoRAアダプタによるシームレスなロールスイッチングを実現する新しいChain-of-LoRA戦略を提案する。
論文 参考訳(メタデータ) (2025-03-17T17:59:33Z) - DeepQAMVS: Query-Aware Hierarchical Pointer Networks for Multi-Video
Summarization [127.16984421969529]
DeepQAMVSと呼ばれるマルチビデオ要約のための新しいQuery-Aware階層型ポインタネットワークを紹介します。
DeepQAMVSは強化学習で訓練され、代表性、多様性、クエリ適応性、時間的コヒーレンスを捉えた報酬を取り入れている。
MVS1Kデータセットで最新の結果を達成し、入力されたビデオフレームの数と線形に推論時間をスケーリングします。
論文 参考訳(メタデータ) (2021-05-13T17:33:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。