論文の概要: LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
- arxiv url: http://arxiv.org/abs/2511.20785v1
- Date: Tue, 25 Nov 2025 19:22:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.82079
- Title: LongVT: Incentivizing "Thinking with Long Videos" via Native Tool Calling
- Title(参考訳): LongVT: ネイティブツールコールによる“長いビデオによるシンキング”のインセンティブ
- Authors: Zuhao Yang, Sudong Wang, Kaichen Zhang, Keming Wu, Sicong Leng, Yifan Zhang, Chengwei Qin, Shijian Lu, Xingxuan Li, Lidong Bing,
- Abstract要約: LongVTは、Multimodal Chain-of-Tool-Thoughtを通じて"Thinking with Long Videos"を可能にするエンドツーエンドのエージェントフレームワークである。
我々は、LMM固有の時間的接地機能を利用して、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールを開発した。
トレーニングデータセットは, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
- 参考スコア(独自算出の注目度): 87.30445183793871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large multimodal models (LMMs) have shown great potential for video reasoning with textual Chain-of-Thought. However, they remain vulnerable to hallucinations, especially when processing long-form videos where evidence is sparse and temporally dispersed. Inspired by how humans comprehend long videos - by first skimming globally and then examining relevant clips for details - we introduce LongVT, an end-to-end agentic framework that enables "Thinking with Long Videos" via interleaved Multimodal Chain-of-Tool-Thought. Specifically, we exploit LMMs' inherent temporal grounding ability as a native video cropping tool to zoom in on a specific video clip and resample finer-grained video frames. This global-to-local reasoning loop continues until answers are grounded in retrieved visual evidence. Given the scarcity of fine-grained question-answering (QA) data for the long video reasoning task, we curate and will release a data suite named VideoSIAH to facilitate both training and evaluation. Specifically, our training dataset consists of 247.9K samples for tool-integrated cold-start supervised fine-tuning, 1.6K samples for agentic reinforcement learning, and 15.4K samples for agentic reinforcement fine-tuning, respectively. Our evaluation benchmark consists of 1,280 QA pairs that are carefully curated through a semi-automatic data pipeline with human-in-the-loop validation. With a meticulously designed three-stage training strategy and extensive empirical validation, LongVT consistently outperforms existing strong baselines across four challenging long-video understanding and reasoning benchmarks. Our codes, data, and model checkpoints are publicly available at https://github.com/EvolvingLMMs-Lab/LongVT .
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、テキスト・オブ・ソートによるビデオ推論に大きな可能性を示している。
しかし、特に証拠がまばらで時間的に分散している長いビデオを処理する場合、幻覚に弱いままである。
人間がロングビデオを理解する方法 – 最初は世界中をスキップして,関連するクリップを詳細に調べることによって – に触発された私たちは,マルチモーダル・チェーン・オブ・ツール・サートを通じて“ロングビデオによるシンキング”を可能にする,エンドツーエンドのエージェントフレームワークであるLongVTを紹介します。
具体的には、特定のビデオクリップをズームインし、よりきめ細かいビデオフレームを再サンプリングするネイティブビデオトリミングツールとして、LMM固有の時間的グラウンド機能を利用する。
このグローバルからローカルへの推論ループは、解答が回収された視覚的証拠に根拠付けられるまで続く。
ビデオ推論タスクにおいて,詳細な質問応答(QA)データが不足していることを踏まえ,ビデオSIAHというデータスイートをキュレートしてリリースして,トレーニングと評価の両立を図っている。
具体的には, ツール統合型冷間始動微調整用247.9K試料, エージェント強化学習用1.6K試料, エージェント強化微調整用15.4K試料からなる。
評価ベンチマークは1,280対のQAペアで構成されており,このペアは半自動データパイプラインで慎重にキュレートされる。
慎重に設計された3段階のトレーニング戦略と広範な経験的検証により、LongVTは4つの挑戦的な長ビデオ理解と推論ベンチマークで、既存の強力なベースラインを一貫して上回っている。
私たちのコード、データ、モデルチェックポイントはhttps://github.com/EvolvingLMMs-Lab/LongVT で公開されています。
関連論文リスト
- LongVideo-R1: Smart Navigation for Low-cost Long Video Understanding [106.23494088118571]
LongVideo-R1は、効率的なビデオコンテキストナビゲーションのためのマルチモーダル大言語モデル(MLLM)エージェントである。
これは、その後の処理において最も情報に富むビデオクリップを推測する。
LongVideo-R1エージェントは、2段階のパラダイムを通じてQwen-3-8Bモデルに微調整される。
論文 参考訳(メタデータ) (2026-02-24T13:49:47Z) - Think with Grounding: Curriculum Reinforced Reasoning with Video Grounding for Long Video Understanding [38.87967229483403]
Video-TwGは、新しいThink-with-Groundingパラダイムを採用したカリキュラム強化フレームワークである。
Video-TwGは、複雑な補助モジュールや注釈付き推論トレースに頼ることなく、簡単にエンドツーエンドでトレーニングすることができる。
提案アルゴリズムは, 微粒な接地報酬, 自己確認擬似報酬, 精度保証機構を特徴とする。
論文 参考訳(メタデータ) (2026-02-21T03:16:23Z) - VideoBrain: Learning Adaptive Frame Sampling for Long Video Understanding [9.415923244280542]
VideoBrainは、Vision-Language Modelsが学習したサンプリングポリシーを通じて視覚情報を適応的に取得することを可能にするエンドツーエンドフレームワークである。
提案手法は,ビデオ間の意味検索を行うCLIPエージェントと,時間間隔内での高密度サンプリングを行うUniformエージェントの2つの補完エージェントを特徴とする。
論文 参考訳(メタデータ) (2026-02-04T00:08:35Z) - A Benchmark and Agentic Framework for Omni-Modal Reasoning and Tool Use in Long Videos [76.98722001848493]
LongShOTBenchは、長めのマルチモーダルビデオ理解のための診断ベンチマークである。
これには、オープンエンド、インテント駆動の質問、シングルターンとマルチターンの対話、マルチモーダル推論とエージェントツールの使用を必要とするタスクが含まれる。
LongShOTAgentは、前処理、検索、反復的な精細化を通じて、長いビデオを分析するエージェントシステムである。
論文 参考訳(メタデータ) (2025-12-18T18:59:27Z) - Thinking With Videos: Multimodal Tool-Augmented Reinforcement Learning for Long Video Reasoning [39.6349428129868]
マルチモーダル大言語モデル(MLLM)は、ビデオ質問応答や時間的接地といった下流タスクに不可欠である。
本稿では,ツール・アグリゲード・ラーニング(VITAL)による映像インテリジェンスを提案する。
ビジュアルツールボックスを使うことで、モデルは必要に応じて新しいビデオフレームを密にサンプリングし、正確なロングビデオ推論のためのマルチモーダルCoTを生成することができる。
論文 参考訳(メタデータ) (2025-08-06T13:03:21Z) - TSPO: Temporal Sampling Policy Optimization for Long-form Video Language Understanding [25.675553077419274]
MLLM(Multimodal Language Models)は、視覚タスクにおいて大きな進歩を見せている。
本稿では、MLLMの長文ビデオ言語理解を強化学習により促進する時間サンプリングポリシー最適化(TSPO)を提案する。
我々のTSPOは、複数の長いビデオ理解ベンチマークにまたがって最先端のビデオMLLM間での転送能力を示す。
論文 参考訳(メタデータ) (2025-08-06T12:03:36Z) - ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Scaling RL to Long Videos [115.96341152407008]
LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.1%と71.1%の精度を達成した。
LongVILA-R1-7Bは最大8,192フレームのビデオフレームとFPS設定をサポートする。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
論文 参考訳(メタデータ) (2025-07-10T17:47:40Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Koala: Key frame-conditioned long video-LLM [70.52369588364992]
我々は、より長いビデオに一般化するために、事前訓練されたvLLMに適応するための軽量で自己監督型の長ビデオLLM(Koala)を提案する。
提案手法は,全タスクの絶対精度を3~6%向上させる。
意外なことに、我々のアプローチは、訓練済みのvLLMが長いビデオを理解するのに役立つだけでなく、短期的な行動認識における精度を向上させることを実証的に示す。
論文 参考訳(メタデータ) (2024-04-05T18:33:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。