論文の概要: Reinforcement Learning with Inverse Rewards for World Model Post-training
- arxiv url: http://arxiv.org/abs/2509.23958v1
- Date: Sun, 28 Sep 2025 16:27:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.553841
- Title: Reinforcement Learning with Inverse Rewards for World Model Post-training
- Title(参考訳): 世界モデルポストトレーニングのための逆逆流を用いた強化学習
- Authors: Yang Ye, Tianyu He, Shuo Yang, Jiang Bian,
- Abstract要約: ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
- 参考スコア(独自算出の注目度): 29.19830208692156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: World models simulate dynamic environments, enabling agents to interact with diverse input modalities. Although recent advances have improved the visual quality and temporal consistency of video world models, their ability of accurately modeling human-specified actions remains under-explored. Reinforcement learning presents a promising approach for directly improving the suboptimal action-following capability of pre-trained models, assuming that an appropriate reward function can be defined. However, transferring reinforcement learning post-training methods to world model is impractical due to the prohibitive cost of large-scale preference annotations and the infeasibility of constructing rule-based video verifiers. To address this gap, we propose Reinforcement Learning with Inverse Rewards (RLIR), a post-training framework that derives verifiable reward signals by recovering input actions from generated videos using an Inverse Dynamics Model. By mapping high-dimensional video modality to a low-dimensional action space, RLIR provides an objective and verifiable reward for optimization via Group Relative Policy Optimization. Experiments across autoregressive and diffusion paradigms demonstrate 5-10% gains in action-following, up to 10% improvements in visual quality, and higher human preference scores, establishing RLIR as the first post-training method specifically designed to enhance action-following in video world models.
- Abstract(参考訳): 世界モデルは動的環境をシミュレートし、エージェントが多様な入力モダリティと対話できるようにする。
近年の進歩により、ビデオワールドモデルの視覚的品質と時間的整合性が向上したが、人間の特定行動の正確なモデル化能力は未探索のままである。
強化学習は、適切な報酬関数を定義することができると仮定して、事前訓練されたモデルの最適動作追従能力を直接改善するための有望なアプローチを示す。
しかし、大規模な嗜好アノテーションの禁止コストとルールベースのビデオ検証システムの構築が不可能なため、学習後の強化学習を世界モデルに移行することは現実的ではない。
このギャップに対処するために、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元し、検証可能な報酬信号を導出する後学習フレームワークであるReinforcement Learning with Inverse Rewards (RLIR)を提案する。
高次元映像のモダリティを低次元のアクション空間にマッピングすることにより、RLIRはグループ相対的ポリシー最適化を通じて、最適化のための客観的かつ検証可能な報酬を提供する。
自己回帰的・拡散的パラダイムを用いた実験では、アクション追従が5~10%向上し、視覚的品質が最大10%向上し、人間の嗜好スコアが向上し、ビデオワールドモデルにおけるアクション追従を強化するために特別に設計された最初のポストトレーニング方法としてRLIRが確立された。
関連論文リスト
- Vid2World: Crafting Video Diffusion Models to Interactive World Models [38.270098691244314]
Vid2Worldは、トレーニング済みのビデオ拡散モデルをインタラクティブな世界モデルに活用し、転送するための一般的なアプローチである。
自己回帰生成を可能にするために、そのアーキテクチャとトレーニング目標を構築することにより、事前訓練されたビデオ拡散モデルのカジュアル化を行う。
対話型世界モデルにおける行動制御性を高めるための因果的行動誘導機構を導入する。
論文 参考訳(メタデータ) (2025-05-20T13:41:45Z) - Vision-R1: Evolving Human-Free Alignment in Large Vision-Language Models via Vision-Guided Reinforcement Learning [26.14137626882127]
LVLM(Large Vision-Language Models)は通常、2段階の訓練パラダイムの事前訓練と教師付き微調整を行う。
言語領域から派生した嗜好最適化は,学習後強化戦略として有効である。
本稿では,LVLMのための新しい視覚誘導型R1様強化学習アルゴリズムであるVision-R1を提案する。
論文 参考訳(メタデータ) (2025-03-23T10:21:14Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - iVideoGPT: Interactive VideoGPTs are Scalable World Models [70.02290687442624]
世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。
マルチモーダルな信号 – 視覚的観察,アクション,報酬 – を統合した,スケーラブルな自己回帰型トランスフォーマーフレームワークであるInteractive VideoGPTを導入する。
iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。
論文 参考訳(メタデータ) (2024-05-24T05:29:12Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Generative Adversarial Reward Learning for Generalized Behavior Tendency
Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。
我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文 参考訳(メタデータ) (2021-05-03T13:14:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。