論文の概要: RLVR-World: Training World Models with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.13934v1
- Date: Tue, 20 May 2025 05:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.752761
- Title: RLVR-World: Training World Models with Reinforcement Learning
- Title(参考訳): RLVR-World:強化学習による世界モデルのトレーニング
- Authors: Jialong Wu, Shaofeng Yin, Ningya Feng, Mingsheng Long,
- Abstract要約: 検証可能な報酬で強化学習を活用する統合フレームワークであるRLVR-Worldを提案する。
我々は,テキストゲーム,Webナビゲーション,ロボット操作など,ドメイン間の言語およびビデオベースの世界モデルにおいて,大幅なパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 41.05792054442638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: World models predict state transitions in response to actions and are increasingly developed across diverse modalities. However, standard training objectives such as maximum likelihood estimation (MLE) often misalign with task-specific goals of world models, i.e., transition prediction metrics like accuracy or perceptual quality. In this paper, we present RLVR-World, a unified framework that leverages reinforcement learning with verifiable rewards (RLVR) to directly optimize world models for such metrics. Despite formulating world modeling as autoregressive prediction of tokenized sequences, RLVR-World evaluates metrics of decoded predictions as verifiable rewards. We demonstrate substantial performance gains on both language- and video-based world models across domains, including text games, web navigation, and robot manipulation. Our work indicates that, beyond recent advances in reasoning language models, RLVR offers a promising post-training paradigm for enhancing the utility of generative models more broadly.
- Abstract(参考訳): 世界モデルは行動に反応して状態遷移を予測し、様々なモダリティにまたがって発展している。
しかし、最大推定(MLE)のような標準的な訓練目標はしばしば世界モデルのタスク固有の目標、すなわち正確性や知覚品質のような遷移予測指標と誤解される。
本稿では,強化学習と検証可能な報酬(RLVR)を併用した統合フレームワークであるRLVR-Worldを紹介し,これらの指標に対する世界モデルを直接最適化する。
トークン化されたシーケンスの自動回帰予測として世界モデリングを定式化したにもかかわらず、RLVR-Worldはデコードされた予測のメトリクスを検証可能な報酬として評価している。
我々は,テキストゲーム,Webナビゲーション,ロボット操作など,ドメイン間の言語およびビデオベースの世界モデルにおいて,大幅なパフォーマンス向上を示す。
我々の研究は、近年の言語モデル推論の進歩を超えて、RLVRは、生成モデルの有用性をより広く向上させるために、有望なポストトレーニングパラダイムを提供することを示している。
関連論文リスト
- Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。