論文の概要: Provably Safe Reinforcement Learning from Analytic Gradients
- arxiv url: http://arxiv.org/abs/2506.01665v1
- Date: Mon, 02 Jun 2025 13:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.404836
- Title: Provably Safe Reinforcement Learning from Analytic Gradients
- Title(参考訳): 分析グラディエントからの潜在的に安全な強化学習
- Authors: Tim Walter, Hannah Markgraf, Jonathan Külz, Matthias Althoff,
- Abstract要約: おそらく安全な強化学習は研究の活発な分野である。
大規模なsim-to-realギャップを防ぐために、トレーニング中にセーフガードを統合する必要がある。
解析勾配に基づく強化学習のための最初の効果的な安全ガードを開発する。
- 参考スコア(独自算出の注目度): 6.5301153208275675
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying autonomous robots in safety-critical applications requires safety guarantees. Provably safe reinforcement learning is an active field of research which aims to provide such guarantees using safeguards. These safeguards should be integrated during training to prevent a large sim-to-real gap. While there are several approaches for safeguarding sampling-based reinforcement learning, analytic gradient-based reinforcement learning often achieves superior performance and sample efficiency. However, there is no safeguarding approach for this learning paradigm yet. Our work addresses this gap by developing the first effective safeguard for analytic gradient-based reinforcement learning. We analyse existing, differentiable safeguards, adapt them through modified mappings and gradient formulations, and integrate them with a state-of-the-art learning algorithm and a differentiable simulation. We evaluate how different safeguards affect policy optimisation using numerical experiments on two classical control tasks. The results demonstrate safeguarded training without compromising performance.
- Abstract(参考訳): 安全クリティカルなアプリケーションに自律ロボットを配置するには、安全性の保証が必要である。
おそらく安全な強化学習は、安全ガードを用いてそのような保証を提供することを目的とした研究の活発な分野である。
これらのセーフガードは、大規模なsim-to-realギャップを防ぐために、トレーニング中に統合されるべきです。
サンプリングに基づく強化学習の保護にはいくつかのアプローチがあるが、解析的勾配に基づく強化学習は優れた性能とサンプル効率を達成することがしばしばある。
しかし、この学習パラダイムに対する保護的アプローチはまだない。
本研究は,解析的勾配に基づく強化学習のための最初の効果的な安全ガードを開発することで,このギャップに対処する。
我々は、既存の差別化可能な安全ガードを分析し、修正されたマッピングと勾配の定式化を通じてそれらを適応させ、最先端の学習アルゴリズムと微分可能なシミュレーションと統合する。
2つの古典的制御タスクの数値実験を用いて、異なる安全ガードが政策最適化にどう影響するかを評価する。
その結果,性能を損なうことなく安全訓練を行うことができた。
関連論文リスト
- Safely Learning Controlled Stochastic Dynamics [61.82896036131116]
システム力学の安全な探索と効率的な推定を可能にする手法を提案する。
学習後、学習モデルはシステムのダイナミクスの予測を可能にし、任意の制御の安全性検証を可能にする。
我々は、真の力学のソボレフ正則性を高めることにより、安全性と適応学習率の向上を理論的に保証する。
論文 参考訳(メタデータ) (2025-06-03T11:17:07Z) - Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Adaptive Aggregation for Safety-Critical Control [3.1692938090731584]
安全クリティカル制御のためのアダプティブアグリゲーションフレームワークを提案する。
我々のアルゴリズムは、いくつかのベースラインと比較してデータ効率が良く、安全性違反が少ない。
論文 参考訳(メタデータ) (2023-02-07T16:53:33Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Sample-efficient Safe Learning for Online Nonlinear Control with Control
Barrier Functions [35.9713619595494]
強化学習と連続非線形制御は、複雑なシーケンシャルな意思決定タスクの複数の領域にうまく展開されている。
学習過程の探索特性とモデル不確実性の存在を考えると、それらを安全クリティカルな制御タスクに適用することは困難である。
本稿では,オンライン制御タスクを対象とした,効率のよいエピソード型安全な学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-29T00:54:35Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - Fail-Safe Adversarial Generative Imitation Learning [9.594432031144716]
本稿では, 安全な生成連続ポリシー, エンドツーエンドの生成逆トレーニング, 最悪の場合の安全性保証を, クローズドフォームの確率密度/勾配で実現する安全層を提案する。
安全層は、すべてのアクションを安全なアクションの集合にマッピングし、変量式と密度の測定値の加算率を使用する。
実世界のドライバーのインタラクションデータに関する実験では,提案手法のトラクタビリティ,安全性,模倣性能を実証的に実証した。
論文 参考訳(メタデータ) (2022-03-03T13:03:06Z) - Neural Network Repair with Reachability Analysis [10.384532888747993]
安全は次世代の自律性にとって重要な問題であり、知覚と制御のためにディープニューラルネットワークに大きく依存する可能性が高い。
本研究は,安全クリティカルシステムにおける安全でないDNNを到達可能性解析で修復する枠組みを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:56:51Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。