論文の概要: TIR-Flow: Active Video Search and Reasoning with Frozen VLMs
- arxiv url: http://arxiv.org/abs/2601.06176v1
- Date: Wed, 07 Jan 2026 13:54:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.644288
- Title: TIR-Flow: Active Video Search and Reasoning with Frozen VLMs
- Title(参考訳): TIR-Flow:凍結VLMによるアクティブビデオ検索と推論
- Authors: Hongbo Jin, Siyi Xie, Jiayu Ding, Kuanwei Lin, Ge Li,
- Abstract要約: 大規模ビデオ言語モデル(Video-LLM)は、認識の著しい進歩を達成しているが、その推論能力はボトルネックのままである。
TIR-Flowは受動処理からアクティブなビデオ検索と推論にパラダイムをシフトする新しいフレームワークであり、追加のデータやパラメータの更新は不要である。
- 参考スコア(独自算出の注目度): 13.783722086940074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Large Video-Language Models (Video-LLMs) have achieved remarkable progress in perception, their reasoning capabilities remain a bottleneck. Existing solutions typically resort to a heavy "data engineering" paradigm-synthesizing large-scale Chain-of-Thought (CoT) datasets followed by Supervised Fine-Tuning (SFT) and Reinforcement Learning (RL). This pipeline primarily optimizes probability sampling efficiency and aligns output distributions, but fails to activate the intrinsic intelligence required for dynamic visual exploration. In this work, we propose TIR-Flow, a novel framework that shifts the paradigm from passive processing to active video searching and reasoning without additional data or parameter updating. Concretely, our framework operates through three synergistic modules: HDD decomposes complex queries into a set of verifiable sub-tasks; HAP actively directs visual attention to gather high-resolution evidence for hypothesis validation; EBA maintains a persistent workspace to accumulate and update the discovered clues for logical reasoning. Extensive experiments on seven benchmarks demonstrate that TIR-Flow significantly outperforms recent strong baselines, delivering an average performance boost of 5.9%, with gains reaching 10.5% on Egoschema. Our analysis confirms that empowering frozen VLMs with System-2-like active perception is a scalable path toward solving long-horizon video reasoning.
- Abstract(参考訳): Large Video-Language Models (Video-LLMs) は認識の著しい進歩を遂げているが、その推論能力はボトルネックのままである。
既存のソリューションは通常、大規模なChain-of-Thought(CoT)データセットを合成する重い"データエンジニアリング"パラダイムを採用し、その後にSupervised Fine-Tuning(SFT)とReinforcement Learning(RL)が続く。
このパイプラインは、主に確率サンプリング効率を最適化し、出力分布を調整するが、動的ビジュアル探索に必要な本質的なインテリジェンスを活性化することができない。
本研究では,新たなフレームワークであるTIR-Flowを提案する。このフレームワークは,新たなデータやパラメータを更新することなく,受動処理からアクティブなビデオ検索,推論へとパラダイムをシフトする。
具体的には、HDDは複雑なクエリを検証可能なサブタスクの集合に分解し、HAPは積極的に視覚的注意を向け、仮説検証の高精度な証拠を集めます。
7つのベンチマークに関する大規模な実験によると、TIR-Flowは最近の強いベースラインを大きく上回り、平均的なパフォーマンスは5.9%向上し、エゴシェマでは10.5%向上した。
解析により,System-2のような能動認識による凍結VLMの有効化は,長距離ビデオ推論の解決に向けたスケーラブルな道筋であることが確認された。
関連論文リスト
- VIDEOP2R: Video Understanding from Perception to Reasoning [15.617535118661488]
強化微調整(RFT)は,大規模言語モデル(LLM)の推論能力向上に有望な成果を示した。
本稿では,認識と推論を個別のプロセスとしてモデル化することにより,映像の推論を強化する新しいプロセス対応ビデオRFTフレームワークであるVideoP2Rを提案する。
論文 参考訳(メタデータ) (2025-11-14T09:42:42Z) - Long Grounded Thoughts: Distilling Compositional Visual Reasoning Chains at Scale [70.23466957404891]
多様なスキルと複雑さのレベルにまたがる新しい推論データ生成フレームワークを,100万以上の高品質な合成視覚中心の質問で紹介する。
データ上のQwen2.5-VL-7Bの微調整は、すべての評価されたビジョン中心のベンチマークにおいて、すべてのオープンデータベースラインを上回ります。
論文 参考訳(メタデータ) (2025-11-07T20:50:54Z) - Toward Effective Tool-Integrated Reasoning via Self-Evolved Preference Learning [68.89572566071575]
Tool-Integrated Reasoning (TIR)により、大きな言語モデル(LLM)は、外部ツールを統合することで、内部推論能力を改善することができる。
提案するTool-Lightは,LDMがTIRを効率的にかつ正確に実行できるようにするためのフレームワークである。
10個のデータセットの実験結果は、ツールライトの有効性を示している。
論文 参考訳(メタデータ) (2025-09-27T12:53:37Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - mRAG: Elucidating the Design Space of Multi-modal Retrieval-Augmented Generation [15.991125806837386]
LVLM(Large Vision-Language Models)は、視覚的質問応答、視覚的接地、複雑な推論といったマルチモーダルなタスクにおいて顕著な進歩を遂げている。
Retrieval-Augmented Generation (RAG)は、LVLMが検索機構を介して大規模知識データベースにアクセスできるようにすることにより、これらの課題を軽減するための実用的なソリューションを提供する。
論文 参考訳(メタデータ) (2025-05-29T23:32:03Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。