論文の概要: Scaling RL to Long Videos
- arxiv url: http://arxiv.org/abs/2507.07966v2
- Date: Thu, 24 Jul 2025 17:20:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:42.011821
- Title: Scaling RL to Long Videos
- Title(参考訳): RLを長いビデオにスケーリングする
- Authors: Yukang Chen, Wei Huang, Baifeng Shi, Qinghao Hu, Hanrong Ye, Ligeng Zhu, Zhijian Liu, Pavlo Molchanov, Jan Kautz, Xiaojuan Qi, Sifei Liu, Hongxu Yin, Yao Lu, Song Han,
- Abstract要約: LongVILA-R1-7Bはビデオベンチマークで高いパフォーマンスを達成し、ビデオMMEではそれぞれ65.0%と70.7%の精度を達成した。
LongVILA-R1は、入力ビデオフレーム数が増加するにつれて、安定したパフォーマンス向上を示す。
各種モダリティのRLトレーニングをサポートする,一般公開のためのトレーニングシステムをリリースする。
- 参考スコア(独自算出の注目度): 107.41198639507255
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce a full-stack framework that scales up reasoning in vision-language models (VLMs) to long videos, leveraging reinforcement learning. We address the unique challenges of long video reasoning by integrating three critical components: (1) a large-scale dataset, LongVideo-Reason, comprising 104K long video QA pairs with high-quality reasoning annotations across diverse domains such as sports, games, and vlogs; (2) a two-stage training pipeline that extends VLMs with chain-of-thought supervised fine-tuning (CoT-SFT) and reinforcement learning (RL); and (3) a training infrastructure for long video RL, named Multi-modal Reinforcement Sequence Parallelism (MR-SP), which incorporates sequence parallelism and a vLLM-based engine tailored for long video, using cached video embeddings for efficient rollout and prefilling. In our experiments, LongVILA-R1-7B achieves strong performance on video benchmarks, reaching 65.0% and 70.7% accuracy on VideoMME without and with subtitles, respectively, and consistently outperforming LongVILA-R1 across multiple benchmarks. Moreover, LongVILA-R1 shows steady performance improvements as the number of input video frames increases. Notably, our MR-SP system achieves up to 2.1x speedup on long video RL training. In addition, we release our training system for public availability that supports RL training on various modalities (video, text, and audio), various models (VILA and Qwen series), and even image and video generation models. On a single A100 node (8 GPUs), it supports RL training on hour-long videos (e.g., 3,600 frames / around 256k tokens).
- Abstract(参考訳): 我々は、視覚言語モデル(VLM)の推論を長いビデオにスケールアップするフルスタックフレームワークを導入し、強化学習を活用する。
大規模データセットであるLongVideo-Reasonは,スポーツやゲーム,vlogなど,さまざまな領域にまたがる高品質な推論アノテーションを備えた,104Kの長ビデオQAペアである。(2)チェーンオブファクトの微調整(CoT-SFT)と強化学習(RL)によってVLMを拡張した2段階のトレーニングパイプライン,(3)長ビデオRLのためのトレーニングインフラストラクチャであるMulti-modal Reinforcement Sequence Parallelism(MR-SP)は,シーケンス並列性とvLLMベースのエンジンを組み込んだ長ビデオ用エンジンで,効率的なロールアウトとプリフィルを行う。
我々の実験では、LongVILA-R1-7Bはビデオベンチマークで高い性能を達成し、ビデオMMEではサブタイトルなしで65.0%、70.7%の精度を達成し、複数のベンチマークで一貫してLongVILA-R1を上回った。
さらに、LongVILA-R1は、入力ビデオフレーム数が増加するにつれて、安定した性能向上を示す。
特にMR-SPシステムでは,長時間ビデオRLトレーニングにおいて最大2.1倍の高速化を実現している。
さらに,様々なモード(ビデオ,テキスト,音声),様々なモデル(VILA,Qwenシリーズ),さらには画像およびビデオ生成モデルに対するRLトレーニングをサポートする,公開可能なトレーニングシステムもリリースしている。
1つのA100ノード(8GPU)で、1時間ビデオ(例えば3,600フレーム/約256kトークン)のRLトレーニングをサポートする。
関連論文リスト
- ARC-Hunyuan-Video-7B: Structured Video Comprehension of Real-World Shorts [56.75723197779384]
ARC-Hunyuan-Videoは、構造化理解のために視覚、音声、テキストの信号をエンドツーエンドに処理するマルチモーダルモデルである。
本モデルでは,複数粒度のタイムスタンプ付きビデオキャプションと要約,オープンなビデオ質問応答,時間的ビデオグラウンド,ビデオ推論が可能である。
論文 参考訳(メタデータ) (2025-07-28T15:52:36Z) - Unleashing Hour-Scale Video Training for Long Video-Language Understanding [61.717205915329664]
本稿では,大規模な時間長ビデオインストラクション追従データセットであるVideoMarathonを紹介する。
このデータセットには、ビデオあたり3分から60分に及ぶ、さまざまなドメインからソースされた9,700時間の長いビデオが含まれている。
時間スケールビデオ言語モデリングのための高効率ビデオLMMであるHour-LLaVAを提案する。
論文 参考訳(メタデータ) (2025-06-05T17:59:04Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Time-R1: Post-Training Large Vision Language Model for Temporal Video Grounding [57.26400319795876]
時間的ビデオグラウンディング(TVG)は、長めのビデオ理解における中核的な課題である。
近年のLVLM(Large Vision-Language Models)は,教師付き微調整によるTVG処理の早期実現を示唆している。
強化学習によるLVLMの一般化能力を高める新しいポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:04:20Z) - HLV-1K: A Large-scale Hour-Long Video Benchmark for Time-Specific Long Video Understanding [20.184894298462652]
我々は、長時間ビデオ理解モデルを評価するために、大規模な時間長ビデオベンチマークHLV-1Kを構築した。
HLV-1Kは、高品質質問応答(QA)とマルチチョイス質問応答(MCQA)を備えた1009時間ビデオからなる。
我々は,既存の最先端手法を用いてベンチマークを評価し,様々なレベルでの深層ビデオ理解能力をテストすることの価値を実証した。
論文 参考訳(メタデータ) (2025-01-03T05:32:37Z) - VideoChat-Flash: Hierarchical Compression for Long-Context Video Modeling [43.485687038460895]
マルチモーダル大言語モデル(MLLM)における長文ビデオモデリングの重要性
本稿では,モデルアーキテクチャ,トレーニングデータ,トレーニング戦略,評価ベンチマークといった側面からこの問題に対処することを目的とする。
我々はVideoChat-Flashという強力なビデオMLLMを構築し、メインストリームのビデオベンチマークとショートビデオベンチマークの両方で主要なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-12-31T18:01:23Z) - LongVILA: Scaling Long-Context Visual Language Models for Long Videos [86.28679075537089]
LongVILAは、Long-contextビジュアル言語モデルのためのフルスタックソリューションである。
LongVILAは、VILAのビデオフレーム数を8から2048に効率的に拡張し、6,000フレーム(100万枚以上のトークン)のビデオニードル・イン・ア・ヘイスタックで99.8%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-19T17:48:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。