論文の概要: RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL
- arxiv url: http://arxiv.org/abs/2512.03556v1
- Date: Wed, 03 Dec 2025 08:24:16 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:05:39.68523
- Title: RoboScape-R: Unified Reward-Observation World Models for Generalizable Robotics Training via RL
- Title(参考訳): RoboScape-R:RLによる汎用ロボティクストレーニングのための統一リワード観測世界モデル
- Authors: Yinzhou Tang, Yu Shang, Yinuo Chen, Bingwen Wei, Xin Zhang, Shu'ang Yu, Liangzhi Shi, Chao Yu, Chen Gao, Wei Wu, Yong Li,
- Abstract要約: 強化学習(RL)政策は、様々なシナリオにまたがる一般化可能性の育成に苦慮している。
RLは、効果的なマルチシーン一般化に必要な統一および一般報酬信号の欠如に悩まされている。
本稿では,世界モデルを活用するフレームワークであるRoboScape-Rを提案する。
- 参考スコア(独自算出の注目度): 18.00185999450407
- License:
- Abstract: Achieving generalizable embodied policies remains a key challenge. Traditional policy learning paradigms, including both Imitation Learning (IL) and Reinforcement Learning (RL), struggle to cultivate generalizability across diverse scenarios. While IL policies often overfit to specific expert trajectories, RL suffers from the inherent lack of a unified and general reward signal necessary for effective multi-scene generalization. We posit that the world model is uniquely capable of serving as a universal environment proxy to address this limitation. However, current world models primarily focus on their ability to predict observations and still rely on task-specific, handcrafted reward functions, thereby failing to provide a truly general training environment. Toward this problem, we propose RoboScape-R, a framework leveraging the world model to serve as a versatile, general-purpose proxy for the embodied environment within the RL paradigm. We introduce a novel world model-based general reward mechanism that generates ''endogenous'' rewards derived from the model's intrinsic understanding of real-world state transition dynamics. Extensive experiments demonstrate that RoboScape-R effectively addresses the limitations of traditional RL methods by providing an efficient and general training environment that substantially enhances the generalization capability of embodied policies. Our approach offers critical insights into utilizing the world model as an online training strategy and achieves an average 37.5% performance improvement over baselines under out-of-domain scenarios.
- Abstract(参考訳): 一般化可能な具体的政策を達成することは、依然として重要な課題である。
IL(Imitation Learning)やRL(Reinforcement Learning)といった伝統的な政策学習パラダイムは、さまざまなシナリオにおける一般化可能性の育成に苦慮している。
ILポリシーは特定の専門家の軌道に過度に適合することが多いが、RLは効果的なマルチシーンの一般化に必要な統一的で一般的な報酬信号の欠如に悩まされている。
我々は、世界モデルは、この制限に対処するための普遍的な環境プロキシとして機能できると仮定する。
しかし、現在の世界モデルは、主に観察を予測し、タスク固有の手作りの報酬関数に依存しているため、真の一般的な訓練環境を提供していない。
そこで本研究では,RLパラダイムの具現化環境のための汎用的汎用プロキシとして,世界モデルを活用したフレームワークであるRoboScape-Rを提案する。
実世界状態遷移力学の本質的な理解から「内在的」報酬を生成する新しい世界モデルに基づく一般報酬機構を導入する。
大規模な実験により、RoboScape-Rは、エンボディドポリシーの一般化能力を大幅に向上させる効率的で一般的なトレーニング環境を提供することによって、従来のRL手法の限界に効果的に対処できることが示されている。
当社のアプローチでは,ワールドモデルをオンライントレーニング戦略として活用するための重要な洞察を提供し,ドメイン外のシナリオ下でのベースラインよりも平均37.5%のパフォーマンス向上を実現している。
関連論文リスト
- Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。
スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文 参考訳(メタデータ) (2025-01-17T10:39:09Z) - Mind the Gap: Towards Generalizable Autonomous Penetration Testing via Domain Randomization and Meta-Reinforcement Learning [15.619925926862235]
GAPは汎用的な自律型ペンテスティングフレームワークである。
現実的な環境で効率的な政策トレーニングを実現することを目的としている。
また、あるインスタンスから他のケースについて推論できるエージェントを訓練する。
論文 参考訳(メタデータ) (2024-12-05T11:24:27Z) - Improving Generalization in Reinforcement Learning Training Regimes for
Social Robot Navigation [5.475804640008192]
カリキュラム学習を用いたRLソーシャルナビゲーション手法の一般化性能を向上させる手法を提案する。
本研究は,カリキュラム学習を学習に活用することで,従来の学習方法よりも優れた一般化性能が得られることを示す。
論文 参考訳(メタデータ) (2023-08-29T00:00:18Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Generalized Real-World Super-Resolution through Adversarial Robustness [107.02188934602802]
本稿では,実世界のSRに取り組むために,敵攻撃の一般化能力を活用したロバスト超解法を提案する。
我々の新しいフレームワークは、現実世界のSR手法の開発においてパラダイムシフトをもたらす。
単一のロバストモデルを使用することで、実世界のベンチマークで最先端の特殊な手法より優れています。
論文 参考訳(メタデータ) (2021-08-25T22:43:20Z) - Reinforcement Learning with a Disentangled Universal Value Function for
Item Recommendation [35.79993074465577]
我々は、goalrecと呼ばれる不連続な普遍値関数を持つモデルベース強化学習フレームワークを開発した。
本稿では,一連のシミュレーションと実応用の3つの実践的課題の観点から,従来のアプローチよりもGoalRecの方が優れていることを示す。
論文 参考訳(メタデータ) (2021-04-07T08:13:32Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。