論文の概要: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
- arxiv url: http://arxiv.org/abs/2601.12428v1
- Date: Sun, 18 Jan 2026 14:27:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.624869
- Title: ReWorld: Multi-Dimensional Reward Modeling for Embodied World Models
- Title(参考訳): ReWorld: 身体的世界モデルのための多次元リワードモデリング
- Authors: Baorui Peng, Wenyao Zhang, Liang Xu, Zekun Qi, Jiazhao Zhang, Hongsi Liu, Wenjun Zeng, Xin Jin,
- Abstract要約: ReWorldは、強化学習を活用して、物理リアリズム、タスク完了能力、実施可能性、視覚的品質をビデオベースで具現化した世界モデルと整合させることを目的としたフレームワークである。
本研究では,ReWorldが生成したロールアウトの物理的忠実度,論理的コヒーレンス,具体化,視覚的品質を著しく改善し,従来の方法よりも優れていたことを示す。
- 参考スコア(独自算出の注目度): 27.729654985554372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, video-based world models that learn to simulate the dynamics have gained increasing attention in robot learning. However, current approaches primarily emphasize visual generative quality while overlooking physical fidelity, dynamic consistency, and task logic, especially for contact-rich manipulation tasks, which limits their applicability to downstream tasks. To this end, we introduce ReWorld, a framework aimed to employ reinforcement learning to align the video-based embodied world models with physical realism, task completion capability, embodiment plausibility and visual quality. Specifically, we first construct a large-scale (~235K) video preference dataset and employ it to train a hierarchical reward model designed to capture multi-dimensional reward consistent with human preferences. We further propose a practical alignment algorithm that post-trains flow-based world models using this reward through a computationally efficient PPO-style algorithm. Comprehensive experiments and theoretical analysis demonstrate that ReWorld significantly improves the physical fidelity, logical coherence, embodiment and visual quality of generated rollouts, outperforming previous methods.
- Abstract(参考訳): 近年,ロボット学習において,ダイナミクスをシミュレートするビデオベースの世界モデルが注目されている。
しかし、現在のアプローチは、物理的忠実さ、動的一貫性、タスクロジックを見越しながら、特に、下流タスクへの適用性を制限したコンタクトリッチな操作タスクにおいて、視覚的生成品質を強調している。
この目的のために、ReWorldは、強化学習を活用して、物理リアリズム、タスク完了能力、実施可能性、視覚的品質をビデオベースで具現化した世界モデルと整合させることを目的としたフレームワークである。
具体的には、まず大規模な(235K)ビデオ嗜好データセットを構築し、人間の嗜好と整合した多次元報酬を捉えるために設計された階層的な報奨モデルを訓練する。
さらに、計算効率の良いPPOスタイルのアルゴリズムを用いて、この報酬を用いてフローベース世界モデルを後処理する実用的なアライメントアルゴリズムを提案する。
総合的な実験と理論的分析により、ReWorldは、生成したロールアウトの物理的忠実度、論理的コヒーレンス、エンボディメント、視覚的品質を著しく改善し、過去の方法より優れていることが示された。
関連論文リスト
- Can World Models Benefit VLMs for World Dynamics? [59.73433292793044]
本研究では,世界モデル先行モデルがビジョンランゲージモデルに移行した場合の能力について検討する。
最高の性能を持つDynamic Vision Aligner (DyVA) と名付けます。
DyVAはオープンソースとプロプライエタリの両方のベースラインを超え、最先端または同等のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-10-01T13:07:05Z) - Reinforcement Learning with Inverse Rewards for World Model Post-training [29.19830208692156]
ビデオワールドモデルにおける動作追跡を改善するために,逆回帰を用いた強化学習を提案する。
RLIRは、逆ダイナミクスモデルを用いて生成されたビデオから入力アクションを復元することにより、検証可能な報酬信号を導出する。
論文 参考訳(メタデータ) (2025-09-28T16:27:47Z) - Neural Motion Simulator: Pushing the Limit of World Models in Reinforcement Learning [11.762260966376125]
モーションダイナミクスモデルは、効率的なスキル獲得と効果的なプランニングに不可欠である。
本稿では,脳神経運動シミュレータ (MoSim) を紹介する。
MoSimは物理状態予測において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-04-09T17:59:32Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Pre-training Contextualized World Models with In-the-wild Videos for
Reinforcement Learning [54.67880602409801]
本稿では,視覚制御タスクの学習を効率的に行うために,Wild 動画を多用した事前学習型世界モデルの課題について検討する。
本稿では、コンテキストと動的モデリングを明確に分離したContextualized World Models(ContextWM)を紹介する。
実験により,ContextWMを内蔵したWildビデオ事前学習は,モデルベース強化学習のサンプル効率を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2023-05-29T14:29:12Z) - Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。
まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。
そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。