論文の概要: VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation
- arxiv url: http://arxiv.org/abs/2605.16079v1
- Date: Fri, 15 May 2026 15:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.344374
- Title: VideoSeeker: Incentivizing Instance-level Video Understanding via Native Agentic Tool Invocation
- Title(参考訳): VideoSeeker: ネイティブエージェントツール呼び出しによるインスタンスレベルのビデオ理解のインセンティブ
- Authors: Yiming Zhao, Yu Zeng, Wenxuan Huang, Zhen Fang, Qing Miao, Qisheng Su, Jiawei Zhao, Jiayin Cai, Lin Chen, Zehui Chen, Yukun Qi, Yao Hu, Xiaolong Jiang, Feng Zhao,
- Abstract要約: VideoSeekerは、視覚的なプロンプトによるインスタンスレベルのビデオ理解のための新しいパラダイムである。
大規模で高品質なインスタンスレベルのビデオデータを効率よく生成する4段階の完全自動データ合成パイプラインを構築した。
我々のモデルは、インスタンスレベルのビデオ理解タスクのベースラインよりも平均で+13.7%向上する。
- 参考スコア(独自算出の注目度): 46.226603529472065
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have shown significant progress in video understanding, yet they face substantial challenges in tasks requiring precise spatiotemporal localization at the instance level. Existing methods primarily rely on text prompts for human-model interaction, but these prompts struggle to provide precise spatial and temporal references, resulting in poor user experience. Furthermore, current approaches typically decouple visual perception from language reasoning, centering reasoning around language rather than visual content, which limits the model's ability to proactively perceive fine-grained visual evidence. To address these challenges, we propose VideoSeeker, a novel paradigm for instance-level video understanding through visual prompts. VideoSeeker seamlessly integrates agentic reasoning with instance-level video understanding tasks, enabling the model to proactively perceive and retrieve relevant video segments on demand. We construct a four-stage fully automated data synthesis pipeline to efficiently generate large-scale, high-quality instance-level video data. We internalize tool-calling and proactive perception capabilities into the model via cold-start supervision and RL training, building a powerful video understanding model. Experiments demonstrate that our model achieves an average improvement of +13.7% over baselines on instance-level video understanding tasks, surpassing powerful closed-source models such as GPT-4o and Gemini-2.5-Pro, while also showing effective transferability on general video understanding benchmarks. The relevant datasets and code will be released publicly.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ビデオ理解において大きな進歩を見せているが、インスタンスレベルでの正確な時空間的ローカライゼーションを必要とするタスクにおいて、大きな課題に直面している。
既存の手法は主に人-モデル相互作用のためのテキストプロンプトに頼っているが、これらのプロンプトは正確な空間的および時間的参照を提供するのに苦労し、結果としてユーザエクスペリエンスは低下する。
さらに、現在のアプローチは、一般的に言語推論から視覚的知覚を分離し、視覚的コンテンツよりも言語を中心に推論することで、モデルがより詳細な視覚的証拠を積極的に知覚する能力を制限している。
これらの課題に対処するために,視覚的プロンプトによるインスタンスレベルの映像理解のための新しいパラダイムであるVideoSeekerを提案する。
VideoSeekerは、エージェントによる推論とインスタンスレベルのビデオ理解タスクをシームレスに統合することで、モデルが必要に応じて適切なビデオセグメントを積極的に知覚し、取得することを可能にする。
大規模で高品質なインスタンスレベルのビデオデータを効率よく生成する4段階の完全自動データ合成パイプラインを構築した。
我々は,冷間開始監視とRLトレーニングを通じて,ツールコール機能と積極的知覚能力をモデルに内包し,強力な映像理解モデルを構築する。
GPT-4o や Gemini-2.5-Pro のような強力なクローズドソースモデルに勝り、一般的なビデオ理解ベンチマーク上では効果的な転送性を示した。
関連するデータセットとコードは公開されます。
関連論文リスト
- Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - VideoCogQA: A Controllable Benchmark for Evaluating Cognitive Abilities in Video-Language Models [19.215440092652507]
LVLM(Large Video-Language Models)は、マルチモーダルビデオ理解において有望な結果をもたらす。
これらのモデルが高レベルのタスクに必要な認知能力を持っているか、特に象徴的、抽象的な知覚にかかわっているかは不明だ。
ゲーム環境にインスパイアされたスケーラブルで完全に制御可能なベンチマークであるVideoCogQAを提案する。
プログラムエンジンを介して合成ビデオを生成することで、VideoCogQAは視覚要素、時間的ダイナミクス、タスクの難しさを細かく制御できる。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - VidCoM: Fast Video Comprehension through Large Language Models with Multimodal Tools [44.78291853329394]
textbfVidCoMは、Large Language Models (LLM)を活用して、軽量なビジュアルツールを使用して動画を推論する高速適応フレームワークである。
InsOVERアルゴリズムは、言語命令の分解とビデオイベントの間の効率的なハンガリー語マッチングに基づいて、対応するビデオイベントを特定する。
論文 参考訳(メタデータ) (2023-10-16T17:05:56Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。