論文の概要: VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization
- arxiv url: http://arxiv.org/abs/2606.02564v1
- Date: Mon, 01 Jun 2026 17:54:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.561072
- Title: VLMs are Good Teachers for Video Reasoning via Adaptive Test-Time Optimization
- Title(参考訳): VLMは適応的テスト時間最適化によるビデオ推論のための良い教師である
- Authors: Junhao Cheng, Liang Hou, Tianxiong Zhong, Xin Tao, Pengfei Wan, Kun Gai, Jing Liao,
- Abstract要約: 視覚言語モデル(VLM)の役割を「教師」に移行させるパラダイムシフトを導入する。
VLMの教師は、タスク固有のルールを識別可能な報酬に抽出し、LoRAモジュールのテストタイムオンライン最適化を通じてVReasonerを定式化する。
この戦略は、適応的なテスト時間最適化を可能にし、Vの本質的な境界を越えて推論能力を拡張する。
- 参考スコア(独自算出の注目度): 34.39134324001484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The recent "Reasoning with Video" paradigm utilizes Video Generation Models (VGMs) to generate temporally coherent visual trajectories to complete reasoning tasks. Although state-of-the-art VGMs excel at visual quality, they often struggle to understand and follow task-specific rules, leading to logical failures across diverse reasoning scenarios. Existing efforts try to utilize Vision-Language Models (VLMs) as problem pre-solvers to produce or refine textual guidance for the VGM. However, textual descriptions fail to capture intricate spatiotemporal details, and VGMs often struggle to faithfully execute fine-grained or long-tail instructions even with a valid plan. While VLMs struggle as solvers, they possess strong perception capabilities to evaluate process-constraint satisfaction and final-goal achievement. Leveraging this strength, we introduce a paradigm shift that transitions the role of VLMs to "teachers". Specifically, a VLM teacher extracts task-specific rules to formulate differentiable rewards, guiding a VGM Reasoner via test-time online optimization of a lightweight LoRA module. This strategy enables adaptive test-time optimization and extends the reasoning capabilities beyond the VGM's intrinsic boundaries. Evaluations on symbolic (VBVR-Bench) and general-purpose (RULER-Bench) video reasoning benchmarks show that the proposed method yields a 16.7-point average performance gain, outperforming the VLM-as-Solver paradigm (+0.4 points) and Best-of-N scaling (+2.2 points) by a large margin at comparable test-time cost. These findings reveal that integrating VLMs as test-time teachers offers a promising paradigm for achieving generalizable video reasoning. Project Page: https://VLM-as-Teacher.github.io/
- Abstract(参考訳): 最近の"Reasoning with Video"パラダイムでは、ビデオ生成モデル(VGM)を使用して、時間的コヒーレントな視覚軌道を生成し、推論タスクを完了させる。
最先端のVGMは視覚的品質に優れていますが、彼らはしばしばタスク固有のルールを理解し、従うのに苦労します。
既存の取り組みでは、VGMのためのテキストガイダンスを作成または洗練するために、VLM(Vision-Language Models)を問題事前解決装置として利用しようと試みている。
しかし、テキストによる記述は複雑な時空間の詳細を捉えることができず、VGMは有効な計画であっても細粒度や長い尾の指示を忠実に実行するのに苦労することが多い。
VLMはソルバとして苦労する一方で、プロセス制約の満足度と最終ゴール達成度を評価する強力な知覚能力を持っている。
このような強みを生かして,VLMの役割を「教師」に転換するパラダイムシフトを導入する。
具体的には、VLM教師がタスク固有のルールを抽出し、軽量LORAモジュールのテストタイムオンライン最適化を通じて、VGM Reasonerを誘導する。
この戦略は、適応的なテスト時間最適化を可能にし、VGMの本質的な境界を越えて推論能力を拡張する。
VLM-as-Solverパラダイム(+0.4ポイント)とBest-of-Nスケーリング(+2.2ポイント)を同等のテスト時間コストで大きなマージンで上回る16.7ポイントの平均性能向上を示す。
これらの結果から,VLMをテストタイムの教師として統合することは,一般的なビデオ推論を実現する上で有望なパラダイムであることが示唆された。
Project Page: https://VLM-as-Teacher.github.io/
関連論文リスト
- CollabVR: Collaborative Video Reasoning with Vision-Language and Video Generation Models [41.60751475372144]
ビデオ生成モデル(VGM)は、ゴール指向タスクにおいて繰り返し発生する障害モードを示す。
ステップレベルの批判においてVLMとVGMを結合するクローズドループフレームワークであるVLM-VGMコラボレーションビデオ推論(CollabVR)を提案する。
Gen-ViReとVBVR-Benchでは、CollabVRはシングル推論、Pass@$k$、マッチした計算における以前のテストタイムスケーリングベースラインよりも、オープンソースとクローズドソース両方のVGMを改善している。
論文 参考訳(メタデータ) (2026-05-09T06:39:17Z) - Rethinking Model Selection in VLM Through the Lens of Gromov-Wasserstein Distance [65.36257254806647]
VLM(Vision-Language Models)は、視覚エンコーダの統合により、視覚機能を備えた従来のLLMを拡張した。
最大サイズまたは最高ゼロショット精度のエンコーダを選択するような一般的なプラクティスは、常に最適なモデルを特定するのに失敗していることを示す。
VLMでは視覚エンコーダのどの要素が重要か?
論文 参考訳(メタデータ) (2026-05-02T08:42:13Z) - VLM4VLA: Revisiting Vision-Language-Models in Vision-Language-Action Models [43.09726338623949]
Vision-Language-Action(VLA)モデルは、事前訓練された大規模なVision-Language Models(VLM)をポリシーバックボーンに統合する。
本稿では、VLMの選択と能力が下流のVLAポリシーのパフォーマンスにどのように変換されるかという、体系的に研究されることは滅多にない。
VLM4VLAは、汎用的なVLMを、学習可能なパラメータの小さなセットのみを用いてVLAポリシーに変換する、最小限の適応パイプラインである。
論文 参考訳(メタデータ) (2026-01-06T09:58:24Z) - A Survey on Video Temporal Grounding with Multimodal Large Language Model [107.24431595873808]
時間的グラウンドリング(VTG)の最近の進歩は、きめ細かいビデオ理解を著しく向上させた。
より優れたマルチモーダル理解と推論能力により、MLLM(VTG-MLLM)に基づくVTGアプローチは、従来の微調整手法を徐々に超えつつある。
一般的なビデオ言語理解に関する広範な調査にもかかわらず、VTG-MLLMに関する包括的なレビューは乏しいままである。
論文 参考訳(メタデータ) (2025-08-07T08:52:11Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - VERA: Explainable Video Anomaly Detection via Verbalized Learning of Vision-Language Models [20.92507667350599]
本稿では、視覚言語モデルによるビデオ異常検出を可能にするVERAという言語学習フレームワークを提案する。
VERAは、VADに必要な複雑な推論を、よりシンプルでより焦点を絞った質問のリフレクションに分解する。
推論中、VERAは学習した質問をモデルプロンプトに埋め込んで、セグメントレベルの異常スコアを生成するVLMをガイドする。
論文 参考訳(メタデータ) (2024-12-02T04:10:14Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Fine-tuning Multimodal LLMs to Follow Zero-shot Demonstrative Instructions [126.3136109870403]
汎用的で軽量なVisual Prompt Generator Complete Module (VPG-C)を導入する。
VPG-Cは、実証的な指示を解釈するために欠落した詳細を推測し、完成する。
私たちは、実証的な命令理解のための包括的なベンチマークであるDEMONを構築します。
論文 参考訳(メタデータ) (2023-08-08T09:32:43Z) - Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。
我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。
発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文 参考訳(メタデータ) (2023-06-28T09:29:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。