論文の概要: Closing the Sim2Real Performance Gap in RL
- arxiv url: http://arxiv.org/abs/2510.17709v1
- Date: Mon, 20 Oct 2025 16:25:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.52286
- Title: Closing the Sim2Real Performance Gap in RL
- Title(参考訳): RLにおけるSim2Realパフォーマンスギャップの閉鎖
- Authors: Akhil S Anand, Shambhuraj Sawant, Jasper Hoffmann, Dirk Reinhardt, Sebastien Gros,
- Abstract要約: Sim2Realは、高忠実度シミュレーション環境でのトレーニングポリシーと、それらを現実世界に効果的に転送することを目的としている。
正確なシミュレータとSim2Real RLアプローチの開発にもかかわらず、シミュレーションで純粋に訓練されたポリシーは、実環境に配備された場合、大きなパフォーマンス低下を被ることが多い。
本稿では,実環境の性能に基づいてシミュレータパラメータを直接適応させることにより,この問題に対処する新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 3.0709946817431875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sim2Real aims at training policies in high-fidelity simulation environments and effectively transferring them to the real world. Despite the developments of accurate simulators and Sim2Real RL approaches, the policies trained purely in simulation often suffer significant performance drops when deployed in real environments. This drop is referred to as the Sim2Real performance gap. Current Sim2Real RL methods optimize the simulator accuracy and variability as proxies for real-world performance. However, these metrics do not necessarily correlate with the real-world performance of the policy as established theoretically and empirically in the literature. We propose a novel framework to address this issue by directly adapting the simulator parameters based on real-world performance. We frame this problem as a bi-level RL framework: the inner-level RL trains a policy purely in simulation, and the outer-level RL adapts the simulation model and in-sim reward parameters to maximize real-world performance of the in-sim policy. We derive and validate in simple examples the mathematical tools needed to develop bi-level RL algorithms that close the Sim2Real performance gap.
- Abstract(参考訳): Sim2Realは、高忠実度シミュレーション環境でのトレーニングポリシーと、それらを現実世界に効果的に転送することを目的としている。
正確なシミュレータとSim2Real RLアプローチの開発にもかかわらず、シミュレーションで純粋に訓練されたポリシーは、実環境に配備された場合、大きなパフォーマンス低下を被ることが多い。
このドロップはSim2Realのパフォーマンスギャップと呼ばれる。
現在のSim2Real RL法は,実世界の性能向上のためのプロキシとして,シミュレータの精度と可変性を最適化する。
しかし、これらの指標は、理論上かつ実証的に確立された政策の実際の性能と必ずしも相関しない。
本稿では,実環境の性能に基づいてシミュレータパラメータを直接適応させることにより,この問題に対処する新しい枠組みを提案する。
内部レベルRLは、シミュレーションにおいて純粋にポリシーを訓練し、外部レベルRLはシミュレーションモデルとインシム報酬パラメータを適用して、インシムポリシーの現実のパフォーマンスを最大化する。
我々は、Sim2Realのパフォーマンスギャップを埋める2レベルRLアルゴリズムを開発するために必要な数学的ツールの簡単な例を導き、検証する。
関連論文リスト
- SimBench: Benchmarking the Ability of Large Language Models to Simulate Human Behaviors [58.87134689752605]
我々は,LLMシミュレーションの堅牢で再現可能な科学のための,最初の大規模標準ベンチマークであるSimBenchを紹介する。
現在、最高のLLMでさえシミュレーション能力が限られ(スコア: 40.80/100)、性能はモデルサイズと対数的にスケールする。
シミュレーション能力は、深い知識集約的推論と最も強く相関していることを示す。
論文 参考訳(メタデータ) (2025-10-20T13:14:38Z) - PolySim: Bridging the Sim-to-Real Gap for Humanoid Control via Multi-Simulator Dynamics Randomization [53.7088694598817]
複数の異種シミュレータを統合するWBCトレーニングプラットフォームであるPolySimを紹介する。
理論的には、PolySimは単シミュレータトレーニングよりもシミュレータ誘導バイアスの強い上限が得られることを示す。
論文 参考訳(メタデータ) (2025-10-02T06:31:42Z) - Overcoming the Sim-to-Real Gap: Leveraging Simulation to Learn to Explore for Real-World RL [25.991354823569033]
多くの制度において、直接シム2リアルトランスファーは失敗する可能性があるが、シミュレータを使って一連のエフェクト探索ポリシーを学習できることが示される。
特に、低ランクのMDPの設定においては、これらの探索政策と単純で実践的なアプローチが結合していることが示される。
これは、シミュレーション転送が直接sim2real転送が失敗する環境で強化学習において証明可能な利益をもたらすという最初の証拠である。
論文 参考訳(メタデータ) (2024-10-26T19:12:27Z) - LoopSR: Looping Sim-and-Real for Lifelong Policy Adaptation of Legged Robots [20.715834172041763]
デプロイ後の段階において、RLポリシーを継続的に洗練する、生涯にわたるポリシー適応フレームワークであるLoopSRを提案する。
LoopSRはトランスフォーマーベースのエンコーダを使用して、現実世界の軌道を潜在空間にマッピングする。
オートエンコーダアーキテクチャとコントラスト学習手法を採用し、実世界のダイナミクスの特徴抽出を強化する。
論文 参考訳(メタデータ) (2024-09-26T16:02:25Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - A Platform-Agnostic Deep Reinforcement Learning Framework for Effective Sim2Real Transfer towards Autonomous Driving [0.0]
深層強化学習(DRL)は複雑なタスクの解決に顕著な成功を収めた。
シミュレーションと現実の間に大きな違いがあるため、DRLエージェントを現実世界に転送することは依然として困難である。
本稿では、プラットフォームに依存した認識モジュールを利用してタスク関連情報を抽出する頑健なDRLフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-14T07:55:07Z) - TrafficSim: Learning to Simulate Realistic Multi-Agent Behaviors [74.67698916175614]
リアル交通シミュレーションのためのマルチエージェント行動モデルであるTrafficSimを提案する。
特に、暗黙の潜在変数モデルを利用して、共同アクターポリシーをパラメータ化する。
TrafficSimは、多様なベースラインと比較して、より現実的で多様なトラフィックシナリオを生成します。
論文 参考訳(メタデータ) (2021-01-17T00:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。