論文の概要: SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2509.18648v1
- Date: Tue, 23 Sep 2025 05:03:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.710906
- Title: SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
- Title(参考訳): SPiDR:Sim-to-Realトランスファーにおけるゼロショット安全のための簡単なアプローチ
- Authors: Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause,
- Abstract要約: 現実世界のアプリケーションに強化学習を展開する上で、安全は依然として大きな関心事である。
安全なsim-to-real転送を保証するスケーラブルなアルゴリズムSPiDRを提案する。
- 参考スコア(独自算出の注目度): 60.19411648245077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety remains a major concern for deploying reinforcement learning (RL) in real-world applications. Simulators provide safe, scalable training environments, but the inevitable sim-to-real gap introduces additional safety concerns, as policies must satisfy constraints in real-world conditions that differ from simulation. To address this challenge, robust safe RL techniques offer principled methods, but are often incompatible with standard scalable training pipelines. In contrast, domain randomization, a simple and popular sim-to-real technique, stands out as a promising alternative, although it often results in unsafe behaviors in practice. We present SPiDR, short for Sim-to-real via Pessimistic Domain Randomization -- a scalable algorithm with provable guarantees for safe sim-to-real transfer. SPiDR uses domain randomization to incorporate the uncertainty about the sim-to-real gap into the safety constraints, making it versatile and highly compatible with existing training pipelines. Through extensive experiments on sim-to-sim benchmarks and two distinct real-world robotic platforms, we demonstrate that SPiDR effectively ensures safety despite the sim-to-real gap while maintaining strong performance.
- Abstract(参考訳): 現実世界のアプリケーションに強化学習(RL)を展開する上で、安全は依然として大きな関心事である。
シミュレーターは安全でスケーラブルなトレーニング環境を提供するが、避けられないシミュレート・トゥ・リアルギャップは、シミュレーションとは異なる実世界の条件における制約を満たさなければならないため、さらなる安全上の懸念をもたらす。
この課題に対処するため、堅牢で安全なRL技術は原則化された手法を提供するが、しばしば標準的なスケーラブルなトレーニングパイプラインと互換性がない。
対照的に、単純で一般的なsim-to-realテクニックであるドメインのランダム化は、実際は安全でない振る舞いをもたらすが、有望な代替手段として際立っている。
提案するSPiDRは,Pessimistic Domain RandomizationによるSim-to-realの略で,安全なSim-to-real転送を保証するスケーラブルなアルゴリズムである。
SPiDRはドメインランダム化を使用して、sim-to-realギャップに関する不確実性を安全制約に組み込む。
sim-to-simベンチマークと2つの異なる実世界のロボットプラットフォームに関する広範な実験を通じて、SPiDRは、sim-to-realのギャップを保ちながら、高い性能を維持しながら、安全性を効果的に保証することを示した。
関連論文リスト
- Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T23:28:11Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies
Learned in Simulation [12.778412161239466]
シミュレーションで学んだポリシーは、必ずしも本物のロボットに安全な振る舞いをもたらすとは限らない。
本研究では,シミュレーションで進化したポリシーの多様なレパートリーを活用する,SafeAPTと呼ばれる新しい学習アルゴリズムを提案する。
SafeAPTは,対話中の安全違反を最小限に抑えつつ,実世界では数分以内に高性能なポリシーを見出すことを示す。
論文 参考訳(メタデータ) (2022-01-27T16:40:36Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。