論文の概要: EasyVideoR1: Easier RL for Video Understanding
- arxiv url: http://arxiv.org/abs/2604.16893v1
- Date: Sat, 18 Apr 2026 07:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.222759
- Title: EasyVideoR1: Easier RL for Video Understanding
- Title(参考訳): EasyVideoR1: ビデオ理解を容易にするRL
- Authors: Chuanyu Qin, Chenxu Yang, Qingyi Si, Naibin Gu, Dingyu Yao, Zheng Lin, Peng Fu, Nan Duan, Jiaqi Wang,
- Abstract要約: 検証可能な報酬(RLVR)からの強化学習は,大規模言語モデルの推論能力向上に顕著な効果を示した。
EasyVideoR1は、ビデオ理解タスクで大きな視覚言語モデルをトレーニングするために特別に設計された、完全かつ効率的な強化学習フレームワークである。
- 参考スコア(独自算出の注目度): 51.760544033045726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from verifiable rewards (RLVR) has demonstrated remarkable effectiveness in improving the reasoning capabilities of large language models. As models evolve into natively multimodal architectures, extending RLVR to video understanding becomes increasingly important yet remains largely unexplored, due to the diversity of video task types, the computational overhead of repeatedly decoding and preprocessing high-dimensional visual inputs, and the difficulty of reproducible evaluation across numerous sensitive hyperparameters. Existing open-source RL training frameworks provide solid infrastructure for text and image scenarios but lack systematic optimizations tailored for video modality. In this work, we present \textbf{EasyVideoR1}, a complete and efficient reinforcement learning framework specifically designed for training large vision-language models on video understanding tasks. EasyVideoR1 makes the following contributions: (1) a full video RL training pipeline with offline preprocessing and tensor caching that eliminates redundant video decoding and yields a 1.47 $\times$ throughput improvement; (2) a comprehensive, task-aware reward system covering 11 distinct video and image problem types with unified routing and modular extension; (3) a mixed offline-online data training paradigm that combines curated high-quality trajectories with on-policy exploration, benefiting the learning of more challenging tasks; (4) joint image-video training with independently configurable pixel budgets, allowing the two modalities to mutually reinforce each other; and (5) an asynchronous multi-benchmark evaluation framework covering 22 mainstream video understanding benchmarks, with reproduced accuracy closely aligned with officially reported scores.
- Abstract(参考訳): 検証可能な報酬(RLVR)からの強化学習は,大規模言語モデルの推論能力向上に顕著な効果を示した。
モデルがネイティブなマルチモーダルアーキテクチャへと進化するにつれて、RLVRをビデオ理解に拡張することがますます重要になるが、ビデオタスクタイプの多様性、高次元の視覚入力を繰り返し復号・前処理することの計算オーバーヘッド、多くの感度なハイパーパラメーター間で再現可能な評価の難しさなど、ほとんど未解明のままである。
既存のオープンソースのRLトレーニングフレームワークは、テキストとイメージのシナリオのためのしっかりとした基盤を提供するが、ビデオのモダリティに適した体系的な最適化は欠如している。
本研究では,ビデオ理解タスクにおいて,大規模視覚言語モデルの学習を目的とした,完全かつ効率的な強化学習フレームワークである「textbf{EasyVideoR1}」を提案する。
EasyVideoR1は、(1)オフライン前処理とテンソルキャッシュを備えたフルビデオRLトレーニングパイプラインで、冗長なビデオデコーディングを排除し、スループットの改善を1.47$\times$にする、(2)一貫したルーティングとモジュラー拡張を備えた、11の異なるビデオおよびイメージ問題タイプをカバーする包括的なタスク対応報酬システム、(3)高品質なトラジェクトリとより困難なタスクの学習を融合したオフラインオンラインデータトレーニングパラダイム、(4)独立に構成可能なピクセル予算による共同イメージビデオトレーニングにより、相互に強化できる2つのモードの相互強化を可能にする、(5)22の動画ベンチマークをカバーする非同期マルチベンチマーク評価フレームワーク。
関連論文リスト
- ViSS-R1: Self-Supervised Reinforcement Video Reasoning [84.1180294023835]
本稿では,新しい自己教師付き強化学習GRPOアルゴリズム(Pretext-GRPO)を標準R1パイプライン内に導入する。
また、プリテキストタスクに基づく自己教師型学習をMLLMのR1ポストトレーニングパラダイムに直接統合するViSS-R1フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-17T07:00:42Z) - Video-LMM Post-Training: A Deep Dive into Video Reasoning with Large Multimodal Models [78.32948112203228]
ビデオ理解はコンピュータビジョンにおける最も困難なフロンティアである。
近年,映像理解タスクにおいて,映像多時間モデルが顕著に出現している。
Surveyは、ビデオ-LMM能力を向上するための統一的なフレームワークを研究者や実践者に提供することを目的としている。
論文 参考訳(メタデータ) (2025-10-06T17:10:44Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - VidTok: A Versatile and Open-Source Video Tokenizer [24.018360305535307]
VidTokは、連続したトークン化と離散的なトークン化の両方で最先端のパフォーマンスを提供する、汎用的なビデオトークン化ツールである。
これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-17T16:27:11Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。