論文の概要: Video Models Can Reason with Verifiable Rewards
- arxiv url: http://arxiv.org/abs/2605.15458v1
- Date: Thu, 14 May 2026 22:40:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.117943
- Title: Video Models Can Reason with Verifiable Rewards
- Title(参考訳): ビデオモデルは、検証可能なリワードに対応できる
- Authors: Tinghui Zhu, Sheng Zhang, James Y. Huang, Selena Song, Xiaofei Wen, Yuankai Li, Hoifung Poon, Muhao Chen,
- Abstract要約: 本稿では,ルールベースフィードバックによる映像拡散モデルの最適化手法であるVideoRLVRを紹介する。
VideoRLVRは、検証可能な視覚軌跡の生成としてビデオ推論を定式化する。
客観的な成功基準を持つ3つのプロシージャ生成ドメインであるMaze, FlowFree, Sokoban の VideoRLVR の評価を行った。
- 参考スコア(独自算出の注目度): 31.381840584972675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video diffusion models have made rapid progress in perceptual realism and temporal coherence, but they remain primarily optimized for plausible generation rather than verifiable reasoning. This limitation is especially pronounced in tasks where generated videos must satisfy explicit spatial, temporal, or logical constraints. Inspired by the role of reinforcement learning with verifiable rewards (RLVR) in reasoning-oriented language models, we introduce VideoRLVR, a practical recipe for optimizing video diffusion models with rule-based feedback. VideoRLVR formulates video reasoning as the generation of verifiable visual trajectories and consists of an SDE-GRPO optimization backbone, dense decomposed rewards, and an Early-Step Focus strategy for efficient training. The Early-Step Focus strategy restricts policy optimization to the early denoising phase, reducing training latency by about 40% while preserving performance. We evaluate VideoRLVR on Maze, FlowFree, and Sokoban, three procedurally generated domains with objective success criteria. Across these tasks, VideoRLVR consistently improves over supervised fine-tuning baselines, with dense decomposed rewards proving especially important in low-success-rate settings. Our RL-optimized model also outperforms the evaluated proprietary and open-source video generation models on these verifiable reasoning benchmarks and out-of-domain benchmarks. These results suggest that verifiable RL can move video models beyond perceptual imitation toward more reliable rule-consistent visual reasoning.
- Abstract(参考訳): ビデオ拡散モデルは知覚的リアリズムと時間的コヒーレンスを急速に進歩させたが、それらは検証可能な推論ではなく、もっともらしい生成に最適化されている。
この制限は、生成されたビデオが明示的な空間的、時間的、論理的制約を満たす必要があるタスクにおいて特に顕著である。
推論指向言語モデルにおける強化学習と検証可能な報酬(RLVR)の役割に着想を得て,ルールベースのフィードバックで映像拡散モデルの最適化を行うための実践的レシピであるVideoRLVRを紹介した。
VideoRLVRは、検証可能な視覚軌道の生成としてビデオ推論を定式化し、SDE-GRPO最適化バックボーン、密分された報酬、効率的なトレーニングのためのアーリーステップフォーカス戦略で構成されている。
Early-Step Focus戦略は、ポリシの最適化を初期段階に制限し、パフォーマンスを維持しながらトレーニングのレイテンシを約40%削減する。
客観的な成功基準を持つ3つのプロシージャ生成ドメインであるMaze, FlowFree, Sokoban の VideoRLVR の評価を行った。
これらのタスク全体では、VideoRLVRは教師付き微調整ベースラインよりも一貫して改善されており、低レベルの設定で特に重要となる高密度な分解報酬が証明されている。
我々のRL最適化モデルは、これらの検証可能な推論ベンチマークとアウトオブドメインベンチマークにおいて、評価されたプロプライエタリおよびオープンソースビデオ生成モデルよりも優れています。
これらの結果は、検証可能なRLが、ビデオモデルを知覚的模倣を超えて、より信頼性の高いルール一貫性のある視覚的推論へと移行できることを示唆している。
関連論文リスト
- Accelerating Training of Autoregressive Video Generation Models via Local Optimization with Representation Continuity [57.83511884904928]
本研究では,実証分析による自己回帰映像生成モデルの訓練を高速化する手法を検討する。
その結果,少ないビデオフレームでのトレーニングではトレーニング時間が大幅に短縮される一方で,エラーの蓄積が悪化し,生成したビデオに矛盾が生じることが判明した。
リプシッツ連続性に触発されて、生成されたビデオの一貫性を改善するためにRepresentation Continuity(ReCo)戦略を提案する。
論文 参考訳(メタデータ) (2026-04-08T09:43:03Z) - Astrolabe: Steering Forward-Process Reinforcement Learning for Distilled Autoregressive Video Models [58.3184497327891]
蒸留自己回帰(AR)ビデオモデルは、効率的なストリーミング生成を可能にするが、しばしば人間の視覚的嗜好に反する。
蒸留ARモデルに適した効率的なオンライン強化学習フレームワークであるAstrolabeを提案する。
論文 参考訳(メタデータ) (2026-03-17T18:32:18Z) - Video Generation Models Are Good Latent Reward Models [35.261036369253524]
リワードフィードバック学習(ReFL)は、画像生成を人間の好みに合わせるのに有効であることが証明されている。
既存のビデオ報酬モデルは、ピクセル空間入力用に設計された視覚言語モデルに依存している。
Process Reward Feedback Learning(PRFL)は、遅延空間で完全に好みの最適化を行うフレームワークである。
論文 参考訳(メタデータ) (2025-11-26T16:14:18Z) - SimpleGVR: A Simple Baseline for Latent-Cascaded Video Super-Resolution [46.311223206965934]
後続の超解像モデルの設計原理について検討し,その設計原理について検討する。
まず、ベースモデルの出力特性をよりよく模倣し、VSRモデルと上流ジェネレータとの整合性を確保するための2つのトレーニングペアを生成する方法を提案する。
第2に,(1)時間ステップサンプリング戦略,(2)低分解能(LR)入力に対する雑音増強効果の系統的解析を通じて,VSRモデル行動に対する批判的洞察を提供する。
論文 参考訳(メタデータ) (2025-06-24T17:57:26Z) - Reshaping Reasoning in LLMs: A Theoretical Analysis of RL Training Dynamics through Pattern Selection [35.268183415853976]
本稿では,実験解析と厳密な理論的モデリングによるRL学習プロセスの説明を行う。
我々は、報酬(RLVR)とモデルの内部フィードバック(RLIF)という2つの典型的な報酬を用いて、RLのトレーニングダイナミクスを理解するための理論的枠組みを開発する。
論文 参考訳(メタデータ) (2025-06-05T07:17:04Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Improving Video Generation with Human Feedback [105.81833319891537]
我々は,人間のフィードバックを利用して映像生成問題を緩和するシステムパイプラインを開発した。
我々は,多次元ビデオ報酬モデルであるVideoRewardを紹介し,アノテーションと様々なデザイン選択が報奨効果に与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-23T18:55:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。