論文の概要: SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
- arxiv url: http://arxiv.org/abs/2509.18648v2
- Date: Sat, 27 Sep 2025 06:26:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 11:50:46.813986
- Title: SPiDR: A Simple Approach for Zero-Shot Safety in Sim-to-Real Transfer
- Title(参考訳): SPiDR:Sim-to-Realトランスファーにおけるゼロショット安全のための簡単なアプローチ
- Authors: Yarden As, Chengrui Qu, Benjamin Unger, Dongho Kang, Max van der Hart, Laixi Shi, Stelian Coros, Adam Wierman, Andreas Krause,
- Abstract要約: 悲観的領域ランダム化によるSim-to-realの略称であるSPiDRを提案する。
SPiDRは、安全なsim-to-real転送を保証するスケーラブルなアルゴリズムである。
我々は,SPiDRが性能を維持しつつ,シミュレートとリアルのギャップを保ちながら,安全性を効果的に確保できることを実証した。
- 参考スコア(独自算出の注目度): 60.19411648245077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying reinforcement learning (RL) safely in the real world is challenging, as policies trained in simulators must face the inevitable sim-to-real gap. Robust safe RL techniques are provably safe, however difficult to scale, while domain randomization is more practical yet prone to unsafe behaviors. We address this gap by proposing SPiDR, short for Sim-to-real via Pessimistic Domain Randomization -- a scalable algorithm with provable guarantees for safe sim-to-real transfer. SPiDR uses domain randomization to incorporate the uncertainty about the sim-to-real gap into the safety constraints, making it versatile and highly compatible with existing training pipelines. Through extensive experiments on sim-to-sim benchmarks and two distinct real-world robotic platforms, we demonstrate that SPiDR effectively ensures safety despite the sim-to-real gap while maintaining strong performance.
- Abstract(参考訳): シミュレーターで訓練されたポリシーは、避けられないシミュレートと現実のギャップに直面する必要があるため、実世界で安全に強化学習(RL)を展開することは困難である。
安全でロバストなRL手法は確実に安全であるが、拡張は困難である一方、ドメインのランダム化はより実用的であり、安全でない振る舞いをしがちである。
このギャップに対処するために,Pessimistic Domain Randomizationを通じてSim-to-realを短縮したSPiDRを提案する。
SPiDRはドメインランダム化を使用して、sim-to-realギャップに関する不確実性を安全制約に組み込む。
sim-to-simベンチマークと2つの異なる実世界のロボットプラットフォームに関する広範な実験を通じて、SPiDRは、sim-to-realのギャップを保ちながら、高い性能を維持しながら、安全性を効果的に保証することを示した。
関連論文リスト
- Safe Continual Domain Adaptation after Sim2Real Transfer of Reinforcement Learning Policies in Robotics [3.7491742648742568]
ドメインランダム化(Domain randomization)は、シミュレーションから現実のロボットアプリケーションへのポリシーの転送を容易にする技術である。
実世界のロボット制御において,安全な配置時ポリシー適用を可能にする手法を提案する。
論文 参考訳(メタデータ) (2025-03-13T23:28:11Z) - Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z) - A Conservative Approach for Few-Shot Transfer in Off-Dynamics Reinforcement Learning [3.1515473193934778]
オフダイナミックス強化学習(英語: Off-dynamics Reinforcement Learning)は、ソース環境から、異なるが類似したダイナミクスによって特徴づけられるターゲット環境へポリシーを移そうとする。
我々は近年のImitation Learningと保守的RLアルゴリズムの進歩に触発された革新的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-24T13:09:08Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - SafeAPT: Safe Simulation-to-Real Robot Learning using Diverse Policies
Learned in Simulation [12.778412161239466]
シミュレーションで学んだポリシーは、必ずしも本物のロボットに安全な振る舞いをもたらすとは限らない。
本研究では,シミュレーションで進化したポリシーの多様なレパートリーを活用する,SafeAPTと呼ばれる新しい学習アルゴリズムを提案する。
SafeAPTは,対話中の安全違反を最小限に抑えつつ,実世界では数分以内に高性能なポリシーを見出すことを示す。
論文 参考訳(メタデータ) (2022-01-27T16:40:36Z) - Sim-to-Lab-to-Real: Safe Reinforcement Learning with Shielding and
Generalization Guarantees [7.6347172725540995]
安全は自律システムにとって重要な要素であり、学習ベースのポリシーを現実世界で活用する上で依然として課題である。
我々は,現実のギャップを,確率的に保証された安全対応政策分布で埋めるべく,Sim-to-Lab-to-Realを提案する。
論文 参考訳(メタデータ) (2022-01-20T18:41:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。