論文の概要: VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning
- arxiv url: http://arxiv.org/abs/2603.25021v1
- Date: Thu, 26 Mar 2026 04:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.099423
- Title: VideoTIR: Accurate Understanding for Long Videos with Efficient Tool-Integrated Reasoning
- Title(参考訳): VideoTIR: 効率的なツール統合推論による長時間ビデオの正確な理解
- Authors: Zhe Gao, Shiyu Shen, Taifeng Chai, Weinong Wang, Haotian Xu, Xing W, Wenbin Li, Qi Fan, Yang Gao, Dacheng Tao,
- Abstract要約: VideoTIRはZero-RLとSFTのコールドスタートを探索し、MLLMが意味のあるビデオセグメント/画像/領域を検索し、フォーカスできるようにする。
我々は,高品質な軌道データを生成するサンドボックスベースの軌道合成フレームワークを開発した。
- 参考スコア(独自算出の注目度): 47.619860680226964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Multimodal Large Language Models (MLLMs) often suffer from hallucinations in long video understanding (LVU), primarily due to the imbalance between textual and visual tokens. Observing that MLLMs handle short visual inputs well, recent LVU works alleviate hallucinations by automatically parsing the vast visual data into manageable segments that can be effectively processed by MLLMs. SFT-based tool-calling methods can serve this purpose, but they typically require vast amounts of fine-grained, high-quality data and suffer from constrained tool-calling trajectories. We propose a novel VideoTIR that leverages Reinforcement Learning (RL) to encourage proper usage of comprehensive multi-level toolkits for efficient long video understanding. VideoTIR explores both Zero-RL and SFT cold-starting to enable MLLMs to retrieve and focus on meaningful video segments/images/regions, enhancing long video understanding both accurately and efficiently. To reduce redundant tool-calling, we propose Toolkit Action Grouped Policy Optimization (TAGPO), which enhances the efficiency of the calling process through stepwise reward assignment and reuse of failed rollouts. Additionally, we develop a sandbox-based trajectory synthesis framework to generate high-quality trajectories data. Extensive experiments on three long-video QA benchmarks demonstrate the effectiveness and efficiency of our method.
- Abstract(参考訳): 既存のMLLM(Multimodal Large Language Models)は、長いビデオ理解(LVU)において幻覚に悩まされることが多い。
MLLMが短い視覚入力をうまく処理するのを見て、近年のLVUは、膨大な視覚データをMLLMによって効果的に処理できる管理可能なセグメントに自動解析することで幻覚を軽減する。
SFTベースのツールコール手法はこの目的を達成することができるが、通常は大量の細粒度で高品質なデータを必要とし、制約されたツールコールトラジェクトリに悩まされる。
本稿では,強化学習(Reinforcement Learning, RL)を活用する新しいビデオTIRを提案する。
VideoTIRは、Zero-RLとSFTのコールドスタートの両方を探索し、MLLMが意味のあるビデオセグメント/画像/領域を検索し、フォーカスできるようにする。
冗長なツールコールを減らすために,段階的に報酬を割り当て,ロールアウトを再利用することで,呼び出しプロセスの効率を向上させるツールキットアクショングループポリシー最適化(TAGPO)を提案する。
さらに,高品質なトラジェクトリデータを生成するサンドボックスベースのトラジェクトリ合成フレームワークを開発した。
提案手法の有効性と有効性を示す3つの長ビデオQAベンチマーク実験を行った。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
大規模言語モデル(LLM)は、画像やビデオなどの視覚的データの強力な理解を示すマルチモーダルLLMの作成を可能にする。
多様な効率要件を満たすマルチモーダルLCMの学習自由適応推論法を提案する。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - VURF: A General-purpose Reasoning and Self-refinement Framework for Video Understanding [65.12464615430036]
本稿では,Large Language Models (LLM) の推論能力に基づくビデオ理解・推論フレームワーク (VURF) を提案する。
ビデオタスクのコンテキストにおいてLLMの実用性を拡張し,最小限のインプットとアウトプットのデモをコンテキストフレームワーク内で一般化する,新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-21T18:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。