論文の概要: Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming
- arxiv url: http://arxiv.org/abs/2310.02459v1
- Date: Tue, 3 Oct 2023 22:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 17:23:49.125271
- Title: Distributionally Safe Reinforcement Learning under Model Uncertainty: A
Single-Level Approach by Differentiable Convex Programming
- Title(参考訳): モデル不確かさ下での分散型安全な強化学習:微分凸プログラミングによる単一レベルアプローチ
- Authors: Alaa Eddine Chriat and Chuangchuang Sun
- Abstract要約: We present a tractable distributionally safe reinforcement learning framework to enforce safety under a distributional shift by a Wasserstein metric。
トラクタビリティを向上させるために、まず双対性理論を用いて、低次最適化を無限次元確率空間から有限次元パラメトリック空間に変換する。
微分可能凸プログラミングにより、二段階安全な学習問題は、さらに2つの逐次計算効率のモジュールを持つ1つのレベルに削減される。
- 参考スコア(独自算出の注目度): 4.825619788907192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Safety assurance is uncompromisable for safety-critical environments with the
presence of drastic model uncertainties (e.g., distributional shift),
especially with humans in the loop. However, incorporating uncertainty in safe
learning will naturally lead to a bi-level problem, where at the lower level
the (worst-case) safety constraint is evaluated within the uncertainty
ambiguity set. In this paper, we present a tractable distributionally safe
reinforcement learning framework to enforce safety under a distributional shift
measured by a Wasserstein metric. To improve the tractability, we first use
duality theory to transform the lower-level optimization from
infinite-dimensional probability space where distributional shift is measured,
to a finite-dimensional parametric space. Moreover, by differentiable convex
programming, the bi-level safe learning problem is further reduced to a
single-level one with two sequential computationally efficient modules: a
convex quadratic program to guarantee safety followed by a projected gradient
ascent to simultaneously find the worst-case uncertainty. This end-to-end
differentiable framework with safety constraints, to the best of our knowledge,
is the first tractable single-level solution to address distributional safety.
We test our approach on first and second-order systems with varying
complexities and compare our results with the uncertainty-agnostic policies,
where our approach demonstrates a significant improvement on safety guarantees.
- Abstract(参考訳): 安全保証は、急激なモデルの不確実性(例えば、分布シフト)、特にループ内の人間の存在によって、安全クリティカルな環境には相容れない。
しかし、安全学習に不確実性を取り込むことは、不確実性曖昧性集合の中で(最悪の場合)安全性制約が評価される二段階問題に自然に結びつく。
本稿では,ワッサースタイン計量で測定した分布変化下での安全性を強制する,扱いやすい分布的安全な強化学習枠組みを提案する。
移動性を改善するために,まず双対性理論を用いて分布シフトを計測する無限次元確率空間から有限次元パラメトリック空間へ低レベル最適化を変換する。
さらに、可微分凸計画により、2段階のセーフラーニング問題は、安全性を保証する凸二次プログラムと、予測された勾配の上昇と、最悪の場合の不確実性を同時に発見する2つの逐次計算効率のモジュールを持つ1段階の学習問題へとさらに縮小される。
このエンドツーエンドで安全な制約を備えた差別化可能なフレームワークは、私たちの知る限りでは、ディストリビューションの安全性に対処するための、最初の扱いやすい単一レベルソリューションです。
我々は, 複雑度が異なる一階・二階システムにおいて, 本手法を検証し, 安全性保証の大幅な改善を示す不確実性に依存しない政策と比較した。
関連論文リスト
- Safe Reinforcement Learning with Learned Non-Markovian Safety Constraints [15.904640266226023]
我々は、安全に関する部分的状態行動軌跡の貢献を評価するために、信用割当を行う安全モデルの設計を行う。
学習された安全モデルを用いて安全なポリシーを最適化する有効なアルゴリズムを導出する。
安全報酬と安全コンプライアンスのトレードオフ係数を動的に適用する手法を考案する。
論文 参考訳(メタデータ) (2024-05-05T17:27:22Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - Robust Safe Reinforcement Learning under Adversarial Disturbances [12.145611442959602]
現実世界の制御タスクに強化学習を適用する場合、安全が主な関心事である。
既存の安全な強化学習アルゴリズムは、外部の障害をほとんど考慮しない。
本稿では,最悪のケース障害に対処する堅牢な安全強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-11T05:34:46Z) - Risk-Averse Model Uncertainty for Distributionally Robust Safe
Reinforcement Learning [3.9821399546174825]
不確実な環境での安全な意思決定のための深層強化学習フレームワークを提案する。
我々は,このフレームワークに対して,分散的に堅牢な強化学習問題の特定のクラスと等価であることを示すことによって,堅牢性を保証する。
安全性の制約のある継続的制御タスクの実験では、当社のフレームワークが、さまざまな障害のあるテスト環境にわたるデプロイメント時に、堅牢なパフォーマンスと安全性を実現していることを示す。
論文 参考訳(メタデータ) (2023-01-30T00:37:06Z) - Meta-Learning Priors for Safe Bayesian Optimization [72.8349503901712]
メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。
コアコントリビューションとして、安全に適合した事前をデータ駆動で選択するための新しいフレームワークを開発する。
ベンチマーク関数と高精度動作系において,我々のメタ学習先行が安全なBOアプローチの収束を加速することを示す。
論文 参考訳(メタデータ) (2022-10-03T08:38:38Z) - Enforcing Hard Constraints with Soft Barriers: Safe Reinforcement
Learning in Unknown Stochastic Environments [84.3830478851369]
本研究では,環境を協調的に学習し,制御ポリシーを最適化する安全な強化学習手法を提案する。
本手法は, 安全性の制約を効果的に適用し, シミュレーションにより測定したシステム安全率においてCMDPベースのベースライン法を著しく上回っている。
論文 参考訳(メタデータ) (2022-09-29T20:49:25Z) - Recursively Feasible Probabilistic Safe Online Learning with Control Barrier Functions [60.26921219698514]
CBFをベースとした安全クリティカルコントローラのモデル不確実性を考慮した再構成を提案する。
次に、結果の安全制御器のポイントワイズ実現可能性条件を示す。
これらの条件を利用して、イベントトリガーによるオンラインデータ収集戦略を考案する。
論文 参考訳(メタデータ) (2022-08-23T05:02:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Learning of Uncertain Environments for Nonlinear Control-Affine
Systems [10.918870296899245]
未知の添加不確実性を受ける非線形制御アフィン系における安全な学習の問題を検討する。
我々はガウス信号として不確実性をモデル化し、状態測定を用いて平均と共分散境界を学習する。
学習と制御が同時に行われる間、我々は任意に大きな確率で状態が安全なセットにとどまることを保証することができることを示しています。
論文 参考訳(メタデータ) (2021-03-02T01:58:02Z) - Context-Aware Safe Reinforcement Learning for Non-Stationary
Environments [24.75527261989899]
現実的なタスクのために強化学習エージェントを展開する場合、安全は重要な問題である。
非定常環境における安全な適応を実現するために,文脈認識型安全強化学習法(CASRL)を提案する。
提案アルゴリズムは,安全性とロバスト性の観点から,既存のベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-01-02T23:52:22Z) - Towards Safe Policy Improvement for Non-Stationary MDPs [48.9966576179679]
多くの実世界の利害問題は非定常性を示し、利害関係が高ければ、偽の定常性仮定に関連するコストは受け入れがたい。
我々は、スムーズに変化する非定常的な意思決定問題に対して、高い信頼性で安全性を確保するための第一歩を踏み出します。
提案手法は,時系列解析を用いたモデルフリー強化学習の合成により,セルドンアルゴリズムと呼ばれる安全なアルゴリズムを拡張した。
論文 参考訳(メタデータ) (2020-10-23T20:13:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。