論文の概要: Safe Exploration via Policy Priors
- arxiv url: http://arxiv.org/abs/2601.19612v1
- Date: Tue, 27 Jan 2026 13:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.337344
- Title: Safe Exploration via Policy Priors
- Title(参考訳): 政策優先による安全な探査
- Authors: Manuel Wendl, Yarden As, Manish Prajapat, Anton Pollak, Stelian Coros, Andreas Krause,
- Abstract要約: 我々は,SOOPERが学習を通して安全を保証し,その累積的後悔を束縛することで最適な政策への収束を確立することを示す。
キーセーフなRLベンチマークと実世界のハードウェアの実験では、SOOPERはスケーラブルであり、最先端技術よりも優れており、現実の理論的保証を検証しています。
- 参考スコア(独自算出の注目度): 45.58021831092113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safe exploration is a key requirement for reinforcement learning (RL) agents to learn and adapt online, beyond controlled (e.g. simulated) environments. In this work, we tackle this challenge by utilizing suboptimal yet conservative policies (e.g., obtained from offline data or simulators) as priors. Our approach, SOOPER, uses probabilistic dynamics models to optimistically explore, yet pessimistically fall back to the conservative policy prior if needed. We prove that SOOPER guarantees safety throughout learning, and establish convergence to an optimal policy by bounding its cumulative regret. Extensive experiments on key safe RL benchmarks and real-world hardware demonstrate that SOOPER is scalable, outperforms the state-of-the-art and validate our theoretical guarantees in practice.
- Abstract(参考訳): 安全な探索は、強化学習(RL)エージェントが、制御された(例えばシミュレーションされた)環境を越えて、オンラインで学習し、適応するための鍵となる要件である。
本研究では,オフラインデータやシミュレータから得られる準最適で保守的なポリシー(例えば,オフラインデータやシミュレータから得られる)を事前に活用することで,この問題に対処する。
我々のアプローチであるSOOPERは確率力学モデルを使って楽観的に探索するが、必要であれば悲観的に保守的な方針に戻る。
我々は,SOOPERが学習を通して安全を保証することを証明し,その累積的後悔を束縛して最適な政策への収束を確立する。
キーセーフなRLベンチマークと実世界のハードウェアに関する大規模な実験は、SOOPERがスケーラブルであることを示し、最先端技術よりも優れ、現実の理論的保証を検証する。
関連論文リスト
- A Provable Approach for End-to-End Safe Reinforcement Learning [17.17447653795906]
安全強化学習(RL)の長年の目標は、プロセス全体を通してポリシーの安全性を確保することである。
本稿では、オフライン安全なRLと安全なポリシー展開を統合するPLS(Provably Lifetime Safe RL)手法を提案する。
論文 参考訳(メタデータ) (2025-05-28T00:48:20Z) - Don't Trade Off Safety: Diffusion Regularization for Constrained Offline RL [21.316556011382932]
制約付き強化学習(RL)は、安全制約下での高性能な政策を求める。
拡散規則化制約付きオフライン強化学習(DRCORL)を提案する。
DRCORLは、まず拡散モデルを使用して、オフラインデータから行動ポリシーをキャプチャし、その後、効率的な推論を可能にするために単純化されたポリシーを抽出する。
論文 参考訳(メタデータ) (2025-02-18T00:00:03Z) - ActSafe: Active Exploration with Safety Constraints for Reinforcement Learning [48.536695794883826]
本稿では,安全かつ効率的な探索のためのモデルベースRLアルゴリズムであるActSafeを提案する。
本稿では,ActSafeが学習中の安全性を保証しつつ,有限時間で準最適政策を得ることを示す。
さらに,最新のモデルベースRLの進歩に基づくActSafeの実用版を提案する。
論文 参考訳(メタデータ) (2024-10-12T10:46:02Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。