論文の概要: Wan-R1: Verifiable-Reinforcement Learning for Video Reasoning
- arxiv url: http://arxiv.org/abs/2603.27866v1
- Date: Sun, 29 Mar 2026 20:53:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.149575
- Title: Wan-R1: Verifiable-Reinforcement Learning for Video Reasoning
- Title(参考訳): Wan-R1:ビデオ推論のための検証可能な強化学習
- Authors: Ming Liu, Yunbei Zhang, Shilong Liu, Liwen Wang, Wensheng Zhang,
- Abstract要約: ビデオ生成モデルは視覚的に一貫性のあるコンテンツを生成するが、空間的推論と多段階計画を必要とするタスクに苦労する。
モーズ解決およびロボットナビゲーションタスクのための客観的タスクメトリクスに基づく検証可能な報酬関数を設計する。
実験により、検証可能な報酬を用いたRL微調整が一般化を改善することが示された。
系統的な報酬分析では、検証可能な報酬は安定したトレーニングに不可欠であるのに対し、マルチモーダル報酬モデルは解を退化させる可能性がある。
- 参考スコア(独自算出の注目度): 34.259169810657895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video generation models produce visually coherent content but struggle with tasks requiring spatial reasoning and multi-step planning. Reinforcement learning (RL) offers a path to improve generalization, but its effectiveness in video reasoning hinges on reward design -- a challenge that has received little systematic study. We investigate this problem by adapting Group Relative Policy Optimization (GRPO) to flow-based video models and training them on maze-solving and robotic navigation tasks. We first show that multimodal reward models fail catastrophically in this setting. To address this, we design verifiable reward functions grounded in objective task metrics. For structured game environments, we introduce a multi-component trajectory reward. For robotic navigation, we propose an embedding-level verifiable reward. Our experiments show that RL fine-tuning with verifiable rewards improves generalization. For example, on complex 3D mazes, our model improves exact match accuracy by 29.1\% over the SFT baseline, and on trap-avoidance tasks by 51.4\%. Our systematic reward analysis reveals that verifiable rewards are critical for stable training, while multimodal reward models could lead to degenerate solutions. These findings establish verifiable reward design as a key enabler for robust video reasoning. Code will be publicly available.
- Abstract(参考訳): ビデオ生成モデルは視覚的に一貫性のあるコンテンツを生成するが、空間的推論と多段階計画を必要とするタスクに苦労する。
強化学習(Reinforcement Learning, RL)は、一般化を改善するための道筋を提供するが、ビデオ推論における効果は報酬設計に依存している。
本稿では,グループ相対政策最適化(GRPO)をフローベースビデオモデルに適用し,迷路解決およびロボットナビゲーションタスクでそれらを訓練することにより,この問題を考察する。
この設定では、まずマルチモーダル報酬モデルが破滅的に失敗することを示す。
この問題に対処するために,客観的タスクメトリクスに基づく検証可能な報酬関数を設計する。
構造化されたゲーム環境に対しては,多成分軌道報酬を導入する。
ロボットナビゲーションでは,埋め込みレベルの検証可能な報酬を提案する。
実験により, 検証可能な報酬を用いたRL微調整により, 一般化が向上することが示された。
例えば、複雑な3D迷路では、SFTベースラインの精度は29.1\%、トラップ回避タスクでは51.4\%向上する。
系統的な報酬分析では、検証可能な報酬は安定したトレーニングに不可欠であるのに対し、マルチモーダル報酬モデルは解を退化させる可能性がある。
これらの知見は、ロバストなビデオ推論のための重要な実現手段として、検証可能な報酬設計を確立した。
コードは公開されます。
関連論文リスト
- Reward Modeling for Reinforcement Learning-Based LLM Reasoning: Design, Challenges, and Evaluation [46.38008143057758]
大きな言語モデル(LLM)は変革の可能性を示しているが、その推論は矛盾し、信頼できないままである。
この研究は、報酬モデリングは単なる実装の詳細ではなく、推論アライメントの中心的なアーキテクトであると主張している。
本枠組みでは,報奨機構の分類,報奨ハッキングを広範にわたる障害モードとして分析し,報奨が課題を統一する方法について検討する。
論文 参考訳(メタデータ) (2026-02-10T00:45:24Z) - Goal-Driven Reward by Video Diffusion Models for Reinforcement Learning [58.33560203572211]
我々は,大規模ビデオデータセット上で事前訓練された市販のビデオ拡散モデルを利用する。
ビデオレベルの報酬については、まずドメイン固有のデータセット上で事前訓練されたビデオ拡散モデルを微調整する。
次に、与えられた状態-動作ペアから目標状態にアクセスする確率をフレームレベルの報酬として、学習した前方方向の表現を用いる。
論文 参考訳(メタデータ) (2025-11-30T16:22:27Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Large Language Models as Efficient Reward Function Searchers for Custom-Environment Multi-Objective Reinforcement Learning [5.203141160419753]
LLMを用いた効率的な報酬関数探索器 ERFSL を提案する。
我々は,各数値的明示的なユーザ要求に対して報奨成分を生成する。
私たちは報酬批評家を使って、正しいコード形式を特定します。
論文 参考訳(メタデータ) (2024-09-04T04:15:14Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Video Prediction Models as Rewards for Reinforcement Learning [127.53893027811027]
VIPERは、事前訓練されたビデオ予測モデルを、強化学習のためのアクションフリー報酬信号として活用するアルゴリズムである。
当社の作業は、ラベルなしビデオからのスケーラブルな報酬仕様の出発点だと考えています。
論文 参考訳(メタデータ) (2023-05-23T17:59:33Z) - Reinforcement Learning Friendly Vision-Language Model for Minecraft [31.863271032186038]
クロスモーダルなコントラスト学習フレームワークであるCLIP4MCを提案する。
オープンなタスクに対する本質的な報酬関数として機能する強化学習(RL)フレンドリな視覚言語モデル(VLM)を学習することを目的としている。
提案手法は,ベースラインよりもRLタスクの性能がよいことを示す。
論文 参考訳(メタデータ) (2023-03-19T05:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。