論文の概要: VideoCuRL: Video Curriculum Reinforcement Learning with Orthogonal Difficulty Decomposition
- arxiv url: http://arxiv.org/abs/2601.00887v1
- Date: Wed, 31 Dec 2025 09:25:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:21.824507
- Title: VideoCuRL: Video Curriculum Reinforcement Learning with Orthogonal Difficulty Decomposition
- Title(参考訳): VideoCuRL:直交困難分解によるビデオカリキュラム強化学習
- Authors: Hongbo Jin, Kuanwei Lin, Wenhao Zhang, Yichen Jin, Ge Li,
- Abstract要約: 強化学習(RL)は、複雑なスカラー推論を備えたビデオLLMの強化である。
VideoRLは、難易度を視覚的テンポラルロードと認知推論深さに分解する。
大規模な実験の結果、VideoRLは推論のベースラインをはるかに超えている。
- 参考スコア(独自算出の注目度): 18.449209218204782
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) is crucial for empowering VideoLLMs with complex spatiotemporal reasoning. However, current RL paradigms predominantly rely on random data shuffling or naive curriculum strategies based on scalar difficulty metrics. We argue that scalar metrics fail to disentangle two orthogonal challenges in video understanding: Visual Temporal Perception Load and Cognitive Reasoning Depth. To address this, we propose VideoCuRL, a novel framework that decomposes difficulty into these two axes. We employ efficient, training-free proxies, optical flow and keyframe entropy for visual complexity, Calibrated Surprisal for cognitive complexity, to map data onto a 2D curriculum grid. A competence aware Diagonal Wavefront strategy then schedules training from base alignment to complex reasoning. Furthermore, we introduce Dynamic Sparse KL and Structured Revisiting to stabilize training against reward collapse and catastrophic forgetting. Extensive experiments show that VideoCuRL surpasses strong RL baselines on reasoning (+2.5 on VSI-Bench) and perception (+2.9 on VideoMME) tasks. Notably, VideoCuRL eliminates the prohibitive inference overhead of generation-based curricula, offering a scalable solution for robust video post-training.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は, 複雑な時空間推論によるビデオLLMの強化に不可欠である。
しかし、現在のRLパラダイムは、スカラー困難度に基づくランダムデータシャッフルやナイーブなカリキュラム戦略に大きく依存している。
我々は、スカラーメトリクスがビデオ理解における2つの直交的課題である視覚的時間知覚負荷と認知的推論深さを解消できないことを論じる。
そこで本研究では,この2つの軸に難易度を分解する新しいフレームワークであるVideoCuRLを提案する。
我々は2次元カリキュラムグリッドにデータをマップするために、効率的でトレーニング不要なプロキシ、光学フロー、視覚的複雑性のためのキーフレームエントロピー、認知的複雑性のためのCalibrated Surprisalを採用しています。
能力に敏感な対角波面戦略は、ベースアライメントから複雑な推論へのトレーニングをスケジュールする。
さらに,動的スパースKLと構造化リバイジットを導入し,報酬崩壊や破滅的な忘れ込みに対するトレーニングを安定させる。
大規模な実験により、VideoCuRLは推論(VSI-Benchでは2.5以上)と知覚(VideoMMEでは2.9以上)でRLベースラインを超えることが示されている。
特に、VideoCuRLは、世代ベースのカリキュラムの違法な推論オーバーヘッドを排除し、堅牢なビデオ後トレーニングのためのスケーラブルなソリューションを提供する。
関連論文リスト
- Video-RTS: Rethinking Reinforcement Learning and Test-Time Scaling for Efficient and Enhanced Video Reasoning [91.54590841593894]
Video-RTSは、データ効率を大幅に改善したビデオ推論機能を改善するための新しいアプローチである。
出力ベースの報酬を伴う効率的な純RLトレーニングを採用しており、追加のアノテーションや広範囲の微調整は必要ありません。
我々は、複数のビデオ推論ベンチマークに対するアプローチを検証し、既存のビデオ推論モデルに2.4%の精度で超えることを示す。
論文 参考訳(メタデータ) (2025-07-09T02:06:13Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。