論文の概要: Scaling RL to Long Videos
- arxiv url: http://arxiv.org/abs/2507.07966v1
- Date: Thu, 10 Jul 2025 17:47:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.522805
- Title: Scaling RL to Long Videos
- Title(参考訳): RLを長いビデオにスケーリングする
- Authors: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han,
- Abstract要約: LongVILA-R1-7B は VideoMME などの長いビデオ QA ベンチマークで高い性能を発揮する。
LongVILA-R1は、視覚言語モデルにおけるロングビデオ推論に向けての第一歩となる。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
- 参考スコア(独自算出の注目度): 107.41198639507255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a full-stack framework that scales up reasoning in vision-language models (VLMs) to long videos, leveraging reinforcement learning. We address the unique challenges of long video reasoning by integrating three critical components: (1) a large-scale dataset, LongVideo-Reason, comprising 52K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling. In experiments, LongVILA-R1-7B achieves strong performance on long video QA benchmarks such as VideoMME. It also outperforms Video-R1-7B and even matches Gemini-1.5-Pro across temporal reasoning, goal and purpose reasoning, spatial reasoning, and plot reasoning on our LongVideo-Reason-eval benchmark. Notably, our MR-SP system achieves up to 2.1x speedup on long video RL training. LongVILA-R1 demonstrates consistent performance gains as the number of input video frames scales. LongVILA-R1 marks a firm step towards long video reasoning in VLMs. In addition, we release our training system for public availability that supports RL training on various modalities (video, text, and audio), various models (VILA and Qwen series), and even image and video generation models. On a single A100 node (8 GPUs), it supports RL training on hour-long videos (e.g., 3,600 frames / around 256k tokens).
- Abstract(参考訳): 我々は、視覚言語モデル(VLM)の推論を長いビデオにスケールアップするフルスタックフレームワークを導入し、強化学習を活用する。
大規模データセットであるLongVideo-Reasonは,スポーツやゲーム,vlogなど,さまざまな領域にまたがる高品質な推論アノテーションを備えた,52Kの長ビデオQAペアである。(2)チェーンオブファクトの微調整(CoT-SFT)と強化学習(RL)により,VLMを拡張した2段階のトレーニングパイプラインであり,(3)長ビデオRLのトレーニング基盤であるMulti-modal Reinforcement Sequence Parallelism(MR-SP)は,シーケンス並列性とvLLMベースのエンジンを内蔵し,効率的なロールアウトとプリフィルを行う。
実験では、LongVILA-R1-7B は VideoMME などの長いビデオ QA ベンチマークで高い性能を達成している。
また、V-R1-7Bより優れており、時間的推論、目標と目的の推論、空間的推論、プロット推論など、LongVideo-Reason-evalベンチマークでGemini-1.5-Proに匹敵する。
特にMR-SPシステムでは,長時間ビデオRLトレーニングにおいて最大2.1倍の高速化を実現している。
LongVILA-R1は、入力されたビデオフレームの数がスケールするにつれて、一貫したパフォーマンス向上を示す。
LongVILA-R1は、VLMにおけるロングビデオ推論への第一歩となる。
さらに,様々なモード(ビデオ,テキスト,音声),様々なモデル(VILA,Qwenシリーズ),さらには画像およびビデオ生成モデルに対するRLトレーニングをサポートする,公開可能なトレーニングシステムもリリースしている。
1つのA100ノード(8GPU)で、1時間ビデオ(例えば3,600フレーム/約256kトークン)のRLトレーニングをサポートする。
関連論文リスト
- LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。