論文の概要: VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking
- arxiv url: http://arxiv.org/abs/2603.20185v1
- Date: Fri, 20 Mar 2026 17:58:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.28133
- Title: VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking
- Title(参考訳): VideoSeek:ツールガイドで検索できるロングホライズン・ビデオ・エージェント
- Authors: Jingyang Lin, Jialian Wu, Jiang Liu, Ximeng Sun, Ze Wang, Xiaodong Yu, Jiebo Luo, Zicheng Liu, Emad Barsoum,
- Abstract要約: VideoSeekは、全ビデオを徹底的に解析するのではなく、積極的に答えクリティカルな証拠を求めるビデオエージェントだ。
VideoSeekはシンク・アク・オブザーバ・ループで動作し、多彩なビデオ観察を収集するためのよく設計されたツールキットを備えている。
- 参考スコア(独自算出の注目度): 49.09710846673772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video agentic models have advanced challenging video-language tasks. However, most agentic approaches still heavily rely on greedy parsing over densely sampled video frames, resulting in high computational cost. We present VideoSeek, a long-horizon video agent that leverages video logic flow to actively seek answer-critical evidence instead of exhaustively parsing the full video. This insight allows the model to use far fewer frames while maintaining, or even improving, its video understanding capability. VideoSeek operates in a think-act-observe loop with a well-designed toolkit for collecting multi-granular video observations. This design enables query-aware exploration over accumulated observations and supports practical video understanding and reasoning. Experiments on four challenging video understanding and reasoning benchmarks demonstrate that VideoSeek achieves strong accuracy while using far fewer frames than prior video agents and standalone LMMs. Notably, VideoSeek achieves a 10.2 absolute points improvement on LVBench over its base model, GPT-5, while using 93% fewer frames. Further analysis highlights the significance of leveraging video logic flow, strong reasoning capability, and the complementary roles of toolkit design.
- Abstract(参考訳): ビデオエージェントモデルには、高度なビデオ言語タスクがある。
しかし、ほとんどのエージェント的アプローチは、密集したビデオフレームのグリーディ解析に大きく依存しており、計算コストが高い。
我々は、ビデオロジックフローを活用して、全ビデオを徹底的に解析する代わりに、積極的に答えクリティカルな証拠を求める、長い水平ビデオエージェントであるVideoSeekを紹介する。
この洞察により、モデルはビデオ理解能力を維持または改善しながら、はるかに少ないフレームを使用することができる。
VideoSeekはシンク・アク・オブザーバ・ループで動作し、多彩なビデオ観察を収集するためのよく設計されたツールキットを備えている。
この設計により、蓄積された観察をクエリーアウェアで探索することができ、実用的なビデオ理解と推論をサポートする。
4つの挑戦的なビデオ理解と推論ベンチマークの実験により、VideoSeekは、以前のビデオエージェントやスタンドアロンのLMMよりもはるかに少ないフレームを使用しながら、高い精度を実現していることが示された。
特筆すべきは、VideoSeekはベースモデルであるGPT-5よりもLVBenchを10.2ポイント改善し、フレーム数は93%減ったことである。
さらに分析は、ビデオ論理フローを活用することの重要性、強力な推論能力、およびツールキット設計の補完的な役割を強調している。
関連論文リスト
- LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。
これは、その後の処理において最も情報に富むビデオクリップを推測する。
LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文 参考訳(メタデータ) (2026-02-24T13:49:47Z) - VideoReasonBench: Can MLLMs Perform Vision-Centric Complex Video Reasoning? [18.9270920369958]
ロングチェーン・オブ・思想(CoT)推論は、複雑なタスクにおける大規模言語モデル(LLM)の性能を大幅に向上させることができる。
近年の取り組みでは、ビデオ推論を目的としたベンチマークが提案されているが、タスクは知識駆動であり、視覚コンテンツにはあまり依存していないことが多い。
視覚中心の複雑なビデオ推論を評価するためのベンチマークであるVideoReasonBenchを紹介する。
論文 参考訳(メタデータ) (2025-05-29T11:33:43Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。