論文の概要: VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
- arxiv url: http://arxiv.org/abs/2601.15724v1
- Date: Thu, 22 Jan 2026 07:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-23 21:37:20.531837
- Title: VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning
- Title(参考訳): VideoThinker: LLM-Guided Tool ReasoningによるエージェントビデオLLMの構築
- Authors: Chenglin Li, Qianglong Chen, Feng Han, Yikun Wang, Xingxi Yin, Yan Gong, Ruilin Li, Yin Zhang, Jiaqi Wang,
- Abstract要約: VideoThinker(ビデオシンカー)は、人工ツールの相互作用の軌跡を完全に訓練したエージェント型ビデオ大言語モデルである。
私たちのキーとなるアイデアは、動画をリッチキャプションに変換し、強力なエージェント言語モデルを使用して、キャプション空間における多段階ツール使用シーケンスを生成することです。
この合成エージェントデータセットのトレーニングでは、動的推論能力、適応的時間探索、多段階ツールの使用などを備えたVideoThinkerが利用できる。
- 参考スコア(独自算出の注目度): 36.3278051400066
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Long-form video understanding remains a fundamental challenge for current Video Large Language Models. Most existing models rely on static reasoning over uniformly sampled frames, which weakens temporal localization and leads to substantial information loss in long videos. Agentic tools such as temporal retrieval, spatial zoom, and temporal zoom offer a natural way to overcome these limitations by enabling adaptive exploration of key moments. However, constructing agentic video understanding data requires models that already possess strong long-form video comprehension, creating a circular dependency. We address this challenge with VideoThinker, an agentic Video Large Language Model trained entirely on synthetic tool interaction trajectories. Our key idea is to convert videos into rich captions and employ a powerful agentic language model to generate multi-step tool use sequences in caption space. These trajectories are subsequently grounded back to video by replacing captions with the corresponding frames, yielding a large-scale interleaved video and tool reasoning dataset without requiring any long-form understanding from the underlying model. Training on this synthetic agentic dataset equips VideoThinker with dynamic reasoning capabilities, adaptive temporal exploration, and multi-step tool use. Remarkably, VideoThinker significantly outperforms both caption-only language model agents and strong video model baselines across long-video benchmarks, demonstrating the effectiveness of tool augmented synthetic data and adaptive retrieval and zoom reasoning for long-form video understanding.
- Abstract(参考訳): 現在のビデオ大言語モデルにとって、長文ビデオ理解は依然として根本的な課題である。
既存のモデルの多くは、一様にサンプリングされたフレームに対する静的推論に依存しており、時間的ローカライゼーションを弱め、長いビデオでかなりの情報損失をもたらす。
時間的検索、空間的ズーム、時間的ズームといったエージェントツールは、キーモーメントの適応的な探索を可能にすることでこれらの制限を克服する自然な方法を提供する。
しかし、エージェント的ビデオ理解データを構築するには、既に強力な長大なビデオ理解を持つモデルが必要であり、円形の依存性を生み出す。
この課題に対処する VideoThinker は,人工ツールのインタラクショントラジェクトリで完全に訓練されたエージェント型ビデオ大言語モデルである。
私たちのキーとなるアイデアは、動画をリッチキャプションに変換し、強力なエージェント言語モデルを使用して、キャプション空間における多段階ツール使用シーケンスを生成することです。
これらのトラジェクトリはその後、キャプションを対応するフレームに置き換え、下位モデルからのロングフォームの理解を必要とせず、大規模にインターリーブされたビデオとツール推論データセットを生成することによって、ビデオに戻す。
この合成エージェントデータセットのトレーニングでは、動的推論能力、適応的時間探索、多段階ツールの使用などを備えたVideoThinkerが利用できる。
興味深いことに、VideoThinkerは、長いビデオのベンチマークにおいて、キャプションのみの言語モデルエージェントと強力なビデオモデルベースラインの両方を著しく上回り、ツール強化合成データの有効性と、長いビデオ理解のための適応的検索とズーム推論の有効性を実証している。
関連論文リスト
- Enhancing Video Large Language Models with Structured Multi-Video Collaborative Reasoning (early version) [18.484276267960436]
有望な解決策は、複数の関連ビデオによる推論のパフォーマンス向上である。
ビデオトークンは多数あり、冗長な情報を含んでいる。
ビデオ言語モデルのためのマルチビデオ協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-16T15:13:21Z) - Universal Video Temporal Grounding with Generative Multi-modal Large Language Models [59.781211641591405]
本稿では,自然言語クエリに基づいて映像中の時間的モーメントを正確に局所化する,ユニバーサルビデオ時間的グラウンドの計算モデルを提案する。
生成型マルチモーダル大言語モデル(MLLM)の強力な視覚言語理解機能を活用した,堅牢で普遍的なビデオグラウンドモデルUniTimeを提案する。
我々のモデルは、複雑な言語クエリを解釈しながら、多様なビュー、ジャンル、長さの動画を効果的に処理する。
論文 参考訳(メタデータ) (2025-06-23T17:53:18Z) - Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding [60.88843818016968]
長時間のビデオ理解は時間空間の複雑さと質問応答の難しさによって大きな課題を呈する。
セグメント化されたビデオクリップ上でのエージェント検索戦略を活用するために,Deep Video Discovery (DVD) エージェントを提案する。
当社のDVDエージェントは,LVBenchデータセット上での最先端性能を実現し,74.2%の精度を実現した。
論文 参考訳(メタデータ) (2025-05-23T16:37:36Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Revisiting the "Video" in Video-Language Understanding [56.15777956496518]
本稿では,ビデオ言語解析の新しいモデルであるアテンポラルプローブ(ATP)を提案する。
現在のビデオ言語ベンチマークの限界とポテンシャルを特徴付ける。
ATPをフルビデオレベル時間モデルに効果的に統合することで、効率と最先端の精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-03T17:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。