論文の概要: Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
- arxiv url: http://arxiv.org/abs/2507.06485v1
- Date: Wed, 09 Jul 2025 02:06:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.437179
- Title: Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning
- Title(参考訳): Video-RTS: 効率的なビデオ推論のための強化学習とテスト時間スケーリングの再考
- Authors: Ziyang Wang, Jaehong Yoon, Shoubin Yu, Md Mohaiminul Islam, Gedas Bertasius, Mohit Bansal,
- Abstract要約: Video-RTSは、データ効率を大幅に改善したビデオ推論機能を改善するための新しいアプローチである。
出力ベースの報酬を伴う効率的な純RLトレーニングを採用しており、追加のアノテーションや広範囲の微調整は必要ありません。
提案手法を複数のビデオ推論ベンチマークで検証し,既存のビデオ推論モデルに平均2.4%の精度で超えることを示す。
- 参考スコア(独自算出の注目度): 65.86184845073075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite advances in reinforcement learning (RL)-based video reasoning with large language models (LLMs), data collection and finetuning remain significant challenges. These methods often rely on large-scale supervised fine-tuning (SFT) with extensive video data and long Chain-of-Thought (CoT) annotations, making them costly and hard to scale. To address this, we present Video-RTS, a new approach to improve video reasoning capability with drastically improved data efficiency by combining data-efficient RL with a video-adaptive test-time scaling (TTS) strategy. Based on observations about the data scaling of RL samples, we skip the resource-intensive SFT step and employ efficient pure-RL training with output-based rewards, requiring no additional annotations or extensive fine-tuning. Furthermore, to utilize computational resources more efficiently, we introduce a sparse-to-dense video TTS strategy that improves inference by iteratively adding frames based on output consistency. We validate our approach on multiple video reasoning benchmarks, showing that Video-RTS surpasses existing video reasoning models by an average of 2.4% in accuracy using only 3.6% training samples. For example, Video-RTS achieves a 4.2% improvement on Video-Holmes, a recent and challenging video reasoning benchmark, and a 2.6% improvement on MMVU. Notably, our pure RL training and adaptive video TTS offer complementary strengths, enabling Video-RTS's strong reasoning performance.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた強化学習(RL)に基づくビデオ推論の進歩にもかかわらず、データ収集と微調整は重要な課題である。
これらの手法は、大規模な教師付き微調整(SFT)に頼り、ビデオデータと長いチェーン・オブ・ソート(CoT)アノテーションにより、コストとスケールが困難になることが多い。
そこで本研究では,データ効率の高いRLとビデオ適応型テストタイムスケーリング(TTS)戦略を組み合わせることで,ビデオ推論能力とデータ効率を大幅に向上させる新しい手法であるVideo-RTSを提案する。
RLサンプルのデータスケーリングに関する観測に基づいて、リソース集約的なSFTステップを省略し、出力ベースの報酬を伴う効率的な純RLトレーニングを採用し、追加のアノテーションや広範囲な微調整を必要としない。
さらに、計算資源をより効率的に活用するために、出力整合性に基づいてフレームを反復的に追加することで推論を改善するスパース・トゥ・ディエンス・ビデオTS戦略を導入する。
我々は、複数のビデオ推論ベンチマークに対するアプローチを検証し、ビデオ-RTSが既存のビデオ推論モデルよりも平均2.4%の精度で、トレーニングサンプルの3.6%しか使っていないことを示した。
例えば、 Video-RTS は Video-Holmes の4.2% の改善、最近の挑戦的なビデオ推論ベンチマーク、MMVU の2.6% の改善を実現している。
特に、私たちの純粋なRLトレーニングと適応型ビデオTSは相補的な長所を提供し、Video-RTSの強力な推論性能を実現しています。
関連論文リスト
- Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - VideoRFT: Incentivizing Video Reasoning Capability in MLLMs via Reinforced Fine-Tuning [33.170426237654596]
VIDEORFTは、MLLMで人間のようなビデオ推論能力を育むための新しいアプローチである。
RFTの標準的な2段階のスキームに従う: チェーン・オブ・シント(CoT)アノテーションによる微調整(SFT)と、一般化を改善するための強化学習(RL)である。
6つのビデオ推論ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-18T14:14:35Z) - Video-R1: Reinforcing Video Reasoning in MLLMs [30.13366332687375]
Video-R1は、ビデオ推論にインセンティブを与えるためのR1パラダイムを体系的に探求する最初の試みである。
まず,T-GRPOアルゴリズムを提案する。
SFTコールドスタートのためのVideo-R1-CoT-165kと、RLトレーニングのためのVideo-R1-260kの2つのデータセットを構築した。
論文 参考訳(メタデータ) (2025-03-27T17:59:51Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - Sparrow: Data-Efficient Video-LLM with Text-to-Image Augmentation [98.92677830223786]
この研究は、合成データによるスケーリングを再考し、データ中心の観点からビデオLLMの開発に焦点を当てる。
本研究では,純粋なテキスト命令データからビデオライクなサンプルを合成するSparrowというデータ拡張手法を提案する。
提案手法は,多くのサンプルを用いてトレーニングしたベースラインに匹敵する,あるいは優れた性能を実現する。
論文 参考訳(メタデータ) (2024-11-29T18:59:54Z) - EPS: Efficient Patch Sampling for Video Overfitting in Deep Super-Resolution Model Training [15.684865589513597]
ビデオSRネットワークオーバーフィッティングのための効率的なパッチサンプリング手法であるEPSを提案する。
本手法は,クラスタの解像度や数に応じて,トレーニング用パッチの数を4%から25%に削減する。
最新のパッチサンプリング手法であるEMTと比較して,本手法は全体の実行時間を83%削減する。
論文 参考訳(メタデータ) (2024-11-25T12:01:57Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。