論文の概要: LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos
- arxiv url: http://arxiv.org/abs/2603.14468v1
- Date: Sun, 15 Mar 2026 16:20:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.825817
- Title: LongVidSearch: An Agentic Benchmark for Multi-hop Evidence Retrieval Planning in Long Videos
- Title(参考訳): LongVidSearch:ロングビデオにおけるマルチホップ証拠検索計画のためのエージェントベンチマーク
- Authors: Rongyi Yu, Chenyuan Duan, Wentao Zhang,
- Abstract要約: LongVidSearchは、ロングビデオにおけるエージェント的マルチホップエビデンス検索計画を評価するためのベンチマークである。
Hop-k の質問は、正確に k 個のエビデンス・クリップを必要とする。
- 参考スコア(独自算出の注目度): 7.139631028105273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video question answering (Long-Video QA) increasingly relies on agentic tool use to retrieve evidence from long videos. In realistic settings, this process often requires multi-hop retrieval, where agents must iteratively gather multiple discontinuous evidence clips. However, existing long-video benchmarks are largely static: they rarely enforce strict multi-hop retrieval and typically lack a standardized evidence-access interface, making it difficult to separate failures in retrieval planning from those in answer generation. To address this gap, we introduce LongVidSearch, a benchmark for evaluating agentic multi-hop evidence retrieval planning in long videos under standardized access constraints. LongVidSearch enforces retrieval necessity: a Hop-k question requires exactly k necessary evidence clips, and removing any single clip renders the question unsolvable. The benchmark contains 3,000 questions over 447 long videos (average length 26 minutes), covering four reasoning categories: State Mutation, Causal Inference, Global Summary, and Visual Tracking, with 2-hop, 3-hop, and 4-hop evidence requirements. To ensure fair and controlled evaluation, all agents interact with LongVidSearch through a unified tool interface, which fixes the retrieval backend and isolates the agent's ability to formulate queries and plan iterative retrieval. In addition to answer accuracy, we measure tool-call cost to analyze the accuracy-efficiency trade-off under identical access conditions. We evaluate VideoAgent-style QA agents with multiple backbone LLMs using three-judge majority voting. GPT-5 achieves the highest accuracy (42.43), outperforming Gemini 3 Pro (30.97) and GPT-4o (19.20), yet remaining below 50 %, highlighting the difficulty of multi-hop retrieval planning. With gold evidence clips, performance becomes near-perfect, confirming retrieval planning as the primary bottleneck.
- Abstract(参考訳): ロングビデオ質問応答(Long-Video QA)は、長いビデオから証拠を回収するエージェントツールの使用にますます依存している。
現実的な設定では、エージェントは複数の不連続なエビデンスクリップを反復的に収集する必要がある。
しかし、既存のロングビデオベンチマークはほとんど静的であり、厳格なマルチホップ検索を強制することは滅多になく、典型的には標準的なエビデンスアクセスインタフェースが欠如しているため、検索計画の失敗を回答生成の失敗と区別することは困難である。
このギャップに対処するために、標準化されたアクセス制約下での長編ビデオにおけるエージェント的マルチホップエビデンス検索計画を評価するベンチマークであるLongVidSearchを紹介した。
LongVidSearchは、検索の必要性を強制する: Hop-kの質問は、正確にk個のエビデンスクリップを必要とする。
このベンチマークには、447本の長いビデオ(平均26分)に3000の質問が含まれており、ステートミューテーション、因果推論、グローバル概要、ビジュアルトラッキングの4つの推論カテゴリをカバーしており、2ホップ、3ホップ、4ホップのエビデンス要件がある。
公正かつ制御された評価を保証するため、すべてのエージェントが統一されたツールインターフェースを通じてLongVidSearchと対話し、検索バックエンドを修正し、クエリを定式化し、反復検索を計画するエージェントの能力を分離する。
回答の精度に加えて,ツールコールコストを測定し,同一アクセス条件下での精度・効率トレードオフを分析する。
マルチバックボーンLDMを用いたビデオエージェント型QAエージェントについて, 多数投票による評価を行った。
GPT-5は、Gemini 3 Pro (30.97) と GPT-4o (19.20) を上回る最高精度 (42.43) を達成しているが、50%以下にとどまり、マルチホップ検索計画の難しさを強調している。
金のエビデンスクリップでは、パフォーマンスはほぼ完璧になり、検索計画が主要なボトルネックであることを確認した。
関連論文リスト
- Video-BrowseComp: Benchmarking Agentic Video Research on Open Web [64.53060049124961]
Video-BrowseCompは、オープンウェブのエージェントによるビデオ推論に適した210の質問からなるベンチマークである。
これは時間的視覚的証拠に必須に依存しており、回答はテキスト検索のみでは導き出せないことを保証している。
初のオープンWebビデオ調査ベンチマークとして、Video-BrowseCompは、受動的知覚を越えて、プロアクティブなビデオ推論へと分野を前進させた。
論文 参考訳(メタデータ) (2025-12-28T19:08:27Z) - HERBench: A Benchmark for Multi-Evidence Integration in Video Question Answering [13.370338205427911]
HERBenchはビデオQAのベンチマークで、時間をかけてマルチエビデンス統合を評価する。
HERBenchは、12の合成タスクで構成された26Kの5方向の多重選択質問で構成されている。
我々は、HERBenchが以前のデータセットよりもかなり高い需要を課していることを示す。
論文 参考訳(メタデータ) (2025-12-16T19:34:47Z) - LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling [87.98096428508181]
LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
論文 参考訳(メタデータ) (2025-11-25T19:22:48Z) - Beyond the limitation of a single query: Train your LLM for query expansion with Reinforcement Learning [23.104182075898297]
Reasoning-augmented search agent, such as Search-R1, are trained to reason, search, and generate the final answer repeateratively。
我々は、強化学習によるクエリ拡張のネイティブ機能を備えたLLMベースの検索エージェントを訓練する。
シュレッシャーモデルの助けを借りて,小型の3B LLMでもクエリ拡張の強力な能力を実証できることが判明した。
論文 参考訳(メタデータ) (2025-10-11T04:23:30Z) - MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。
AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。
提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-08T06:34:29Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。