論文の概要: Safely Bridging Offline and Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.13060v1
- Date: Mon, 25 Oct 2021 15:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:30:44.565095
- Title: Safely Bridging Offline and Online Reinforcement Learning
- Title(参考訳): オフラインの安全なブリッジングとオンライン強化学習
- Authors: Wanqiao Xu, Kan Xu, Hamsa Bastani, Osbert Bastani
- Abstract要約: 我々は、UCB強化学習ポリシーを探索に用いるアルゴリズムを設計するが、高い確率で安全性を確保するためにそれをオーバーライドする。
本研究は, 症例ごとの基準方針と比較して, 良好な成績を保ちながら, アルゴリズムが学習できることを実証し, 敗血症治療の課題について実験的に検証した。
- 参考スコア(独自算出の注目度): 17.67983988254856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge to deploying reinforcement learning in practice is exploring
safely. We propose a natural safety property -- \textit{uniformly}
outperforming a conservative policy (adaptively estimated from all data
observed thus far), up to a per-episode exploration budget. We then design an
algorithm that uses a UCB reinforcement learning policy for exploration, but
overrides it as needed to ensure safety with high probability. We
experimentally validate our results on a sepsis treatment task, demonstrating
that our algorithm can learn while ensuring good performance compared to the
baseline policy for every patient.
- Abstract(参考訳): 強化学習を実践する上で重要な課題は、安全に探索することだ。
我々は,保存的政策(現在観測されているすべてのデータから適応的に推定される)を上回って,エピソード探索予算まで,自然安全特性 -- \textit{uniformly} を提案する。
次に、UCB強化学習ポリシーを探索に用いたアルゴリズムを設計するが、高い確率で安全性を確保するために必要に応じてオーバライドする。
我々は, 敗血症治療の課題について検討を行い, 患者毎のベースライン・ポリシーと比較して, 良好な性能を確保しつつ, アルゴリズムが学習できることを実証した。
関連論文リスト
- Approximate Shielding of Atari Agents for Safe Exploration [83.55437924143615]
遮蔽の概念に基づく安全な探索のための原理的アルゴリズムを提案する。
本稿では,我々の近似遮蔽アルゴリズムが安全違反率を効果的に低減することを示す予備的な結果を示す。
論文 参考訳(メタデータ) (2023-04-21T16:19:54Z) - Guiding Safe Exploration with Weakest Preconditions [15.469452301122177]
安全クリティカルな設定のための強化学習では、エージェントはあらゆる時点において安全制約に従うことが望ましい。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-28T14:58:41Z) - Barrier Certified Safety Learning Control: When Sum-of-Square
Programming Meets Reinforcement Learning [0.0]
本研究は、強化学習よりも制御障壁関数を採用し、安全性を完全に維持するための補償アルゴリズムを提案する。
2次プログラミングに基づく強化学習法と比較して、我々の2次プログラミングに基づく強化学習は、その優位性を示している。
論文 参考訳(メタデータ) (2022-06-16T04:38:50Z) - SAFER: Data-Efficient and Safe Reinforcement Learning via Skill
Acquisition [59.94644674087599]
安全制約下での複雑な制御タスクにおけるポリシー学習を高速化するアルゴリズムであるSAFEty skill pRiors (SAFER)を提案する。
オフラインデータセットでの原則的なトレーニングを通じて、SAFERは安全なプリミティブスキルの抽出を学ぶ。
推論段階では、SAFERで訓練されたポリシーは、安全なスキルを成功のポリシーに組み込むことを学ぶ。
論文 参考訳(メタデータ) (2022-02-10T05:43:41Z) - Improving Safety in Deep Reinforcement Learning using Unsupervised
Action Planning [4.2955354157580325]
深層強化学習(Deep RL)における重要な課題の1つは、トレーニングとテストフェーズの両方で安全性を確保することである。
そこで本稿では,オンライン強化学習アルゴリズムの安全性を向上させるために,教師なし行動計画の新たな手法を提案する。
提案アルゴリズムは,離散制御と連続制御の両問題において,複数のベースラインと比較して高い報酬を得られることを示す。
論文 参考訳(メタデータ) (2021-09-29T10:26:29Z) - Learning Barrier Certificates: Towards Safe Reinforcement Learning with
Zero Training-time Violations [64.39401322671803]
本稿では、トレーニング時安全違反をゼロとした安全RLアルゴリズムの可能性について検討する。
本稿では、バリア証明書、動的モデル、ポリシーを反復的に学習する、CRABS(Co-trained Barrier Certificate for Safe RL)を提案する。
論文 参考訳(メタデータ) (2021-08-04T04:59:05Z) - Conservative Safety Critics for Exploration [120.73241848565449]
強化学習(RL)における安全な探索の課題について検討する。
我々は、批評家を通じて環境状態の保守的な安全性推定を学習する。
提案手法は,破滅的故障率を著しく低く抑えながら,競争力のあるタスク性能を実現することができることを示す。
論文 参考訳(メタデータ) (2020-10-27T17:54:25Z) - Chance-Constrained Trajectory Optimization for Safe Exploration and
Learning of Nonlinear Systems [81.7983463275447]
学習に基づく制御アルゴリズムは、訓練のための豊富な監督を伴うデータ収集を必要とする。
本稿では,機会制約付き最適制御と動的学習とフィードバック制御を統合した安全な探索による最適動作計画のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-09T05:57:43Z) - Cautious Reinforcement Learning with Logical Constraints [78.96597639789279]
適応型安全なパッドディングは、学習プロセス中の安全性を確保しつつ、RL(Reinforcement Learning)に最適な制御ポリシーの合成を強制する。
理論的な保証は、合成されたポリシーの最適性と学習アルゴリズムの収束について利用できる。
論文 参考訳(メタデータ) (2020-02-26T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。