Fugu-MT 論文翻訳(概要): VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

論文の概要: VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

arxiv url: http://arxiv.org/abs/2603.20185v1
Date: Fri, 20 Mar 2026 17:58:47 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 19:48:39.28133
Title: VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking
Title（参考訳）: VideoSeek:ツールガイドで検索できるロングホライズン・ビデオ・エージェント
Authors: Jingyang Lin, Jialian Wu, Jiang Liu, Ximeng Sun, Ze Wang, Xiaodong Yu, Jiebo Luo, Zicheng Liu, Emad Barsoum,
Abstract要約: VideoSeekは、全ビデオを徹底的に解析するのではなく、積極的に答えクリティカルな証拠を求めるビデオエージェントだ。 VideoSeekはシンク・アク・オブザーバ・ループで動作し、多彩なビデオ観察を収集するためのよく設計されたツールキットを備えている。
参考スコア（独自算出の注目度）: 49.09710846673772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video agentic models have advanced challenging video-language tasks. However, most agentic approaches still heavily rely on greedy parsing over densely sampled video frames, resulting in high computational cost. We present VideoSeek, a long-horizon video agent that leverages video logic flow to actively seek answer-critical evidence instead of exhaustively parsing the full video. This insight allows the model to use far fewer frames while maintaining, or even improving, its video understanding capability. VideoSeek operates in a think-act-observe loop with a well-designed toolkit for collecting multi-granular video observations. This design enables query-aware exploration over accumulated observations and supports practical video understanding and reasoning. Experiments on four challenging video understanding and reasoning benchmarks demonstrate that VideoSeek achieves strong accuracy while using far fewer frames than prior video agents and standalone LMMs. Notably, VideoSeek achieves a 10.2 absolute points improvement on LVBench over its base model, GPT-5, while using 93% fewer frames. Further analysis highlights the significance of leveraging video logic flow, strong reasoning capability, and the complementary roles of toolkit design.
Abstract（参考訳）: ビデオエージェントモデルには、高度なビデオ言語タスクがある。しかし、ほとんどのエージェント的アプローチは、密集したビデオフレームのグリーディ解析に大きく依存しており、計算コストが高い。我々は、ビデオロジックフローを活用して、全ビデオを徹底的に解析する代わりに、積極的に答えクリティカルな証拠を求める、長い水平ビデオエージェントであるVideoSeekを紹介する。この洞察により、モデルはビデオ理解能力を維持または改善しながら、はるかに少ないフレームを使用することができる。 VideoSeekはシンク・アク・オブザーバ・ループで動作し、多彩なビデオ観察を収集するためのよく設計されたツールキットを備えている。この設計により、蓄積された観察をクエリーアウェアで探索することができ、実用的なビデオ理解と推論をサポートする。 4つの挑戦的なビデオ理解と推論ベンチマークの実験により、VideoSeekは、以前のビデオエージェントやスタンドアロンのLMMよりもはるかに少ないフレームを使用しながら、高い精度を実現していることが示された。特筆すべきは、VideoSeekはベースモデルであるGPT-5よりもLVBenchを10.2ポイント改善し、フレーム数は93%減ったことである。さらに分析は、ビデオ論理フローを活用することの重要性、強力な推論能力、およびツールキット設計の補完的な役割を強調している。

論文の概要: VideoSeek: Long-Horizon Video Agent with Tool-Guided Seeking

関連論文リスト