論文の概要: Safe Wasserstein Constrained Deep Q-Learning
- arxiv url: http://arxiv.org/abs/2002.03016v4
- Date: Mon, 25 Oct 2021 20:13:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:10:25.317268
- Title: Safe Wasserstein Constrained Deep Q-Learning
- Title(参考訳): 安全なワッサースタインによるQ-Learning
- Authors: Aaron Kandel, Scott J. Moura
- Abstract要約: 本稿では,Wasserstein ambiguity セットを利用した分散ロバストなQ-Learningアルゴリズム (DrQ) を提案する。
リチウムイオン電池の高速充電のケーススタディを用いて、理想主義的安全性保証が安全性を全般的に向上させる方法について検討する。
- 参考スコア(独自算出の注目度): 2.088376060651494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a distributionally robust Q-Learning algorithm (DrQ)
which leverages Wasserstein ambiguity sets to provide idealistic probabilistic
out-of-sample safety guarantees during online learning. First, we follow past
work by separating the constraint functions from the principal objective to
create a hierarchy of machines which estimate the feasible state-action space
within the constrained Markov decision process (CMDP). DrQ works within this
framework by augmenting constraint costs with tightening offset variables
obtained through Wasserstein distributionally robust optimization (DRO). These
offset variables correspond to worst-case distributions of modeling error
characterized by the TD-errors of the constraint Q-functions. This procedure
allows us to safely approach the nominal constraint boundaries.
Using a case study of lithium-ion battery fast charging, we explore how
idealistic safety guarantees translate to generally improved safety relative to
conventional methods.
- Abstract(参考訳): 本稿では,Wasserstein ambiguity セットを応用して,オンライン学習における確率的アウト・オブ・サンプル保証を実現する分散ロバストなQ-Learningアルゴリズム(DrQ)を提案する。
まず,制約関数を主目的から分離し,制約付きマルコフ決定プロセス(CMDP)内で実現可能な状態-作用空間を推定するマシン階層を作成する。
drqはこのフレームワーク内で動作し、wasserstein distributionally robust optimization (dro)によって得られたオフセット変数の引き締めによって制約コストを増加させる。
これらのオフセット変数は、制約Q関数のTDエラーを特徴とするモデリングエラーの最悪のケース分布に対応する。
この手順により、名目上の制約境界に安全にアプローチできる。
リチウムイオン電池の高速充電のケーススタディを用いて,従来の方法に比べて安全性が一般的に向上することを示す。
関連論文リスト
- Learning Predictive Safety Filter via Decomposition of Robust Invariant
Set [6.94348936509225]
本稿では, RMPCとRL RLの併用による非線形システムの安全フィルタの合成について述べる。
本稿では,ロバストリーチ問題に対する政策アプローチを提案し,その複雑性を確立する。
論文 参考訳(メタデータ) (2023-11-12T08:11:28Z) - SCPO: Safe Reinforcement Learning with Safety Critic Policy Optimization [1.3597551064547502]
本研究では,新しい安全強化学習アルゴリズム,セーフティ・クリティカル・ポリシー・オプティマイゼーションを導入する。
本研究では,安全制約に違反して得られる報酬を無効化する機構である安全評論家を定義した。
理論的解析により,提案アルゴリズムは安全制約への付着と報酬の最大化との間のトレードオフを自動的にバランスできることが示された。
論文 参考訳(メタデータ) (2023-11-01T22:12:50Z) - Online Constraint Tightening in Stochastic Model Predictive Control: A
Regression Approach [49.056933332667114]
確率制約付き最適制御問題に対する解析解は存在しない。
制御中の制約強調パラメータをオンラインで学習するためのデータ駆動型アプローチを提案する。
提案手法は, 確率制約を厳密に満たす制約強調パラメータを導出する。
論文 参考訳(メタデータ) (2023-10-04T16:22:02Z) - Wasserstein Distributionally Robust Control Barrier Function using
Conditional Value-at-Risk with Differentiable Convex Programming [4.825619788907192]
制御バリア関数 (CBF) は、現実世界の安全クリティカルシステムのための安全なコントローラの設計に広く注目を集めている。
分布変化下でのレジリエンスを達成するために, 分散ロバストCBFを提案する。
また、高次システムに対するDR-CBFの近似変種も提供する。
論文 参考訳(メタデータ) (2023-09-15T18:45:09Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Robustness Guarantees for Credal Bayesian Networks via Constraint
Relaxation over Probabilistic Circuits [16.997060715857987]
本研究では,決定関数のロバスト性を,断続ベイズ的ネットワークに対して定量化する手法を開発した。
回路サイズにおいて線形時間で MARmax 上の保証上限を得る方法を示す。
論文 参考訳(メタデータ) (2022-05-11T22:37:07Z) - Lyapunov-based uncertainty-aware safe reinforcement learning [0.0]
InReinforcement Learning (RL)は、様々なシーケンシャルな意思決定タスクに対して最適なポリシーを学ぶ上で、有望なパフォーマンスを示している。
多くの現実世界のRL問題において、主な目的を最適化する以外に、エージェントは一定のレベルの安全性を満たすことが期待されている。
これらの制約に対処するために,リャプノフに基づく不確実性を考慮した安全なRLモデルを提案する。
論文 参考訳(メタデータ) (2021-07-29T13:08:15Z) - Pointwise Feasibility of Gaussian Process-based Safety-Critical Control
under Model Uncertainty [77.18483084440182]
制御バリア関数(CBF)と制御リアプノフ関数(CLF)は、制御システムの安全性と安定性をそれぞれ強化するための一般的なツールである。
本稿では, CBF と CLF を用いた安全クリティカルコントローラにおいて, モデル不確実性に対処するためのガウスプロセス(GP)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-13T23:08:49Z) - Combining Deep Learning and Optimization for Security-Constrained
Optimal Power Flow [94.24763814458686]
セキュリティに制約のある最適電力フロー(SCOPF)は、電力システムの基本である。
SCOPF問題におけるAPRのモデル化は、複雑な大規模混合整数プログラムをもたらす。
本稿では,ディープラーニングとロバスト最適化を組み合わせた新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-14T12:38:21Z) - Robust Reinforcement Learning with Wasserstein Constraint [49.86490922809473]
最適なロバストなポリシーの存在を示し、摂動に対する感度分析を行い、新しいロバストな学習アルゴリズムを設計する。
提案アルゴリズムの有効性はCart-Pole環境で検証する。
論文 参考訳(メタデータ) (2020-06-01T13:48:59Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。