論文の概要: LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
- arxiv url: http://arxiv.org/abs/2511.20785v1
- Date: Tue, 25 Nov 2025 19:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.82079
- Title: LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
- Title(参考訳): LongVT: ネイティブツールコールによる“長いビデオによるシンキング”のインセンティブ
- Authors: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing,
- Abstract要約: LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
- 参考スコア(独自算出の注目度): 87.30445183793871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、テキスト・オブ・ソートによるビデオ推論に大きな可能性を示している。
しかし、特に証拠がまばらで時間的に分散している長いビデオを処理する場合、幻覚に弱いままである。
人間がロングビデオを理解する方法 – 最初は世界中をスキップして,関連するクリップを詳細に調べることによって – に触発された私たちは,マルチモーダル・チェーン・オブ・ツール・サートを通じて“ロングビデオによるシンキング”を可能にする,エンドツーエンドのエージェントフレームワークであるLongVTを紹介します。
具体的には、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールとして、LMM固有の時間的グラウンド機能を利用する。
このグローバルからローカルへの推論ループは、解答が回収された視覚的証拠に根拠付けられるまで続く。
ビデオ推論タスクにおいて,詳細な質問応答(QA)データが不足していることを踏まえ,ビデオSIAHというデータスイートをキュレートしてリリースして,トレーニングと評価の両立を図っている。
具体的には, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
評価ベンチマークは1,280対のQAペアで構成されており,このペアは半自動データパイプラインで慎重にキュレートされる。
慎重に設計された3段階のトレーニング戦略と広範な経験的検証により、LongVTは4つの挑戦的な長ビデオ理解と推論ベンチマークで、既存の強力なベースラインを一貫して上回っている。
私たちのコード、データ、モデルチェックポイントはhttps://github.com/EvolvingLMMs-Lab/LongVT で公開されています。
関連論文リスト
- Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。