論文の概要: Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
- arxiv url: http://arxiv.org/abs/2512.23044v1
- Date: Sun, 28 Dec 2025 19:08:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.340762
- Title: Video-BrowseComp: Benchmarking Agentic Video Research on Open Web
- Title(参考訳): Video-BrowseComp: Open Web上のエージェントビデオ研究のベンチマーク
- Authors: Zhengyang Liang, Yan Shu, Xiangrui Liu, Minghao Qin, Kaixin Liang, Paolo Rota, Nicu Sebe, Zheng Liu, Lizi Liao,
- Abstract要約: Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
- 参考スコア(独自算出の注目度): 64.53060049124961
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The evolution of autonomous agents is redefining information seeking, transitioning from passive retrieval to proactive, open-ended web research. However, while textual and static multimodal agents have seen rapid progress, a significant modality gap remains in processing the web's most dynamic modality: video. Existing video benchmarks predominantly focus on passive perception, feeding curated clips to models without requiring external retrieval. They fail to evaluate agentic video research, which necessitates actively interrogating video timelines, cross-referencing dispersed evidence, and verifying claims against the open web. To bridge this gap, we present \textbf{Video-BrowseComp}, a challenging benchmark comprising 210 questions tailored for open-web agentic video reasoning. Unlike prior benchmarks, Video-BrowseComp enforces a mandatory dependency on temporal visual evidence, ensuring that answers cannot be derived solely through text search but require navigating video timelines to verify external claims. Our evaluation of state-of-the-art models reveals a critical bottleneck: even advanced search-augmented models like GPT-5.1 (w/ Search) achieve only 15.24\% accuracy. Our analysis reveals that these models largely rely on textual proxies, excelling in metadata-rich domains (e.g., TV shows with plot summaries) but collapsing in metadata-sparse, dynamic environments (e.g., sports, gameplay) where visual grounding is essential. As the first open-web video research benchmark, Video-BrowseComp advances the field beyond passive perception toward proactive video reasoning.
- Abstract(参考訳): 自律エージェントの進化は、受動的検索から積極的かつオープンなWeb研究へ移行する情報を求めて再定義することである。
しかし、テキストと静的なマルチモーダルエージェントは急速に進歩しているが、Webの最も動的なモダリティであるビデオの処理において、大きなモダリティギャップが残っている。
既存のビデオベンチマークは、主に受動的知覚に焦点を当て、外部の検索を必要とせず、キュレートされたクリップをモデルに供給する。
彼らは、ビデオのタイムラインを精査し、散在した証拠を相互に参照し、オープンウェブに対する主張を検証する必要があるエージェント的ビデオ研究を評価するのに失敗した。
このギャップを埋めるために、オープンウェブのエージェント的ビデオ推論に適した210の質問からなる挑戦的なベンチマークである \textbf{Video-BrowseComp} を提示する。
以前のベンチマークとは異なり、Video-BrowseCompは時間的視覚的エビデンスに必須に依存しており、回答はテキスト検索のみでは導き出せないが、外部のクレームを検証するにはビデオタイムラインをナビゲートする必要がある。
GPT-5.1 (w/ Search) のような高度な検索強化モデルでさえ、15.24\%の精度しか達成していない。
分析の結果、これらのモデルはテキストプロキシに大きく依存しており、メタデータに富んだドメイン(プロットサマリー付きテレビ番組など)では優れていますが、ビジュアルグラウンドが不可欠であるメタデータスパース、ダイナミック環境(スポーツ、ゲームプレイなど)では崩壊しています。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
関連論文リスト
- ImplicitQA: Going beyond frames towards Implicit Video Reasoning [39.63171940350552]
ImplicitQAは、人間のような暗黙の推論でビデオQAモデルをテストするために設計された新しいベンチマークである。
ImplicitQAは、1Kの高品質なクリエイティビティビデオクリップから引き出された1Kの微妙な注釈付きQAペアからなる。
論文 参考訳(メタデータ) (2025-06-26T19:53:54Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Generative Ghost: Investigating Ranking Bias Hidden in AI-Generated Videos [106.5804660736763]
ビデオ情報検索は、ビデオコンテンツにアクセスするための基本的なアプローチである。
我々は,検索モデルがアドホックや画像検索タスクにおいて,AI生成コンテンツに好適であることを示す。
我々は、ビデオ検索に挑戦する文脈において、同様のバイアスが出現するかどうかを考察する。
論文 参考訳(メタデータ) (2025-02-11T07:43:47Z) - VideoRAG: Retrieval-Augmented Generation over Video Corpus [57.68536380621672]
VideoRAGは、クエリによる関連性に基づいて、動的にビデオを取得するフレームワークである。
VideoRAGは近年のLVLM(Large Video Language Models)を利用している。
我々は,ビデオRAGの有効性を実験的に検証し,関連するベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-10T11:17:15Z) - Agent-based Video Trimming [17.519404251018308]
ビデオトリミング(VT)という新しいタスクを導入する。
VTは、無駄な映像を検出し、貴重なセグメントを選択し、それらをコヒーレントなストーリーで最終ビデオに構成することに焦点を当てている。
AVTは、ユーザスタディにおいてより好ましい評価を受け、YouTube Highlights、TVSum、および我々のデータセットにおいて、より優れたmAPと精度を示した。
論文 参考訳(メタデータ) (2024-12-12T17:59:28Z) - Towards Video Anomaly Retrieval from Video Anomaly Detection: New
Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。
Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。
一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文 参考訳(メタデータ) (2023-07-24T06:22:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。