論文の概要: Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.13184v1
- Date: Tue, 17 Dec 2024 18:58:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:28.628545
- Title: Tilted Quantile Gradient Updates for Quantile-Constrained Reinforcement Learning
- Title(参考訳): 量子制約強化学習のためのTilted Quantile Gradient Updates
- Authors: Chenglin Li, Guangchun Ruan, Hua Geng,
- Abstract要約: 予測型近似を使わずに高いレベルの安全性を実現する安全な強化学習(RL)パラダイムを提案する。
非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装した。
実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
- 参考スコア(独自算出の注目度): 12.721239079824622
- License:
- Abstract: Safe reinforcement learning (RL) is a popular and versatile paradigm to learn reward-maximizing policies with safety guarantees. Previous works tend to express the safety constraints in an expectation form due to the ease of implementation, but this turns out to be ineffective in maintaining safety constraints with high probability. To this end, we move to the quantile-constrained RL that enables a higher level of safety without any expectation-form approximations. We directly estimate the quantile gradients through sampling and provide the theoretical proofs of convergence. Then a tilted update strategy for quantile gradients is implemented to compensate the asymmetric distributional density, with a direct benefit of return performance. Experiments demonstrate that the proposed model fully meets safety requirements (quantile constraints) while outperforming the state-of-the-art benchmarks with higher return.
- Abstract(参考訳): 安全強化学習(RL)は、安全保証付き報酬最大化政策を学習するための人気で多用途なパラダイムである。
従来の作業では、実装が容易なため、期待された形で安全制約を表現する傾向があったが、これは高い確率で安全制約を維持できないことが判明した。
この目的のために、予測型近似を使わずに高いレベルの安全性を実現するために、量子制約付きRLに移行する。
サンプリングにより量子勾配を直接推定し、収束の理論的証明を与える。
次に、非対称分布密度を補償するために、量子勾配の傾き更新戦略を実装し、戻り性能の直接的な利点を享受する。
実験により、提案モデルが安全性要件(量子的制約)を完全に満たし、高いリターンで最先端のベンチマークより優れていることが示された。
関連論文リスト
- Leveraging Approximate Model-based Shielding for Probabilistic Safety
Guarantees in Continuous Environments [63.053364805943026]
近似モデルベースの遮蔽フレームワークを連続的な設定に拡張する。
特に、テストベッドとしてSafety Gymを使用し、一般的な制約付きRLアルゴリズムとABBSのより直接的な比較を可能にします。
論文 参考訳(メタデータ) (2024-02-01T17:55:08Z) - Reward Certification for Policy Smoothed Reinforcement Learning [14.804252729195513]
強化学習(Reinforcement Learning, RL)は、安全クリティカルな分野において大きな成功を収めた。
近年の研究では、その堅牢性を高めるために「平滑な政策」を導入している。
報酬の総額を認定する証明可能な保証を確立することは依然として困難である。
論文 参考訳(メタデータ) (2023-12-11T15:07:58Z) - State-Wise Safe Reinforcement Learning With Pixel Observations [12.338614299403305]
本稿では,未知の危険領域に対する安全性の制約を効率的にエンコードする,新しい画素オブザービングセーフなRLアルゴリズムを提案する。
共同学習の枠組みとして,画素観測から導出した低次元潜在空間を用いた潜在力学モデルの構築から着目する。
次に、潜時力学の上に潜時バリアのような機能を構築・学習し、同時にポリシー最適化を行い、それによって安全性と総リターンの両方を改善します。
論文 参考訳(メタデータ) (2023-11-03T20:32:30Z) - Probabilistic Reach-Avoid for Bayesian Neural Networks [71.67052234622781]
最適合成アルゴリズムは、証明された状態の数を4倍以上に増やすことができることを示す。
このアルゴリズムは、平均的な到達回避確率を3倍以上に向上させることができる。
論文 参考訳(メタデータ) (2023-10-03T10:52:21Z) - Multi-Step Model Predictive Safety Filters: Reducing Chattering by
Increasing the Prediction Horizon [7.55113002732746]
安全フィルタを用いて学習制御ポリシを増強することにより、状態と入力制約の満足度を保証できる。
モデル予測安全フィルタ(MPSF)は、モデル予測制御(MPC)に基づく一般的な安全フィルタリング手法である。
論文 参考訳(メタデータ) (2023-09-20T16:35:29Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Certifying Safety in Reinforcement Learning under Adversarial
Perturbation Attacks [23.907977144668838]
本稿では,PMDPの真の状態が学習時にわかっているという仮定を付加する,部分教師付き強化学習(PSRL)フレームワークを提案する。
逆入力摂動下でのPSRLポリシーの安全性を検証するための最初のアプローチと、PSRLを直接利用する2つの逆トレーニングアプローチを提案する。
論文 参考訳(メタデータ) (2022-12-28T22:33:38Z) - Safe Reinforcement Learning From Pixels Using a Stochastic Latent
Representation [3.5884936187733394]
我々は,画素観測による安全強化学習の課題に対処する。
制約付き、部分的に観測可能なマルコフ決定プロセスフレームワークで問題を定式化する。
我々は、潜伏アクター批判(SLAC)アプローチを用いて、新しい安全評論家を採用する。
論文 参考訳(メタデータ) (2022-10-02T19:55:42Z) - Log Barriers for Safe Black-box Optimization with Application to Safe
Reinforcement Learning [72.97229770329214]
本稿では,学習時の安全性維持が不可欠である高次元非線形最適化問題に対する一般的なアプローチを提案する。
LBSGDと呼ばれるアプローチは、慎重に選択されたステップサイズで対数障壁近似を適用することに基づいている。
安全強化学習における政策課題の違反を最小限に抑えるためのアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-21T11:14:47Z) - Safe Reinforcement Learning via Confidence-Based Filters [78.39359694273575]
我々は,標準的な強化学習技術を用いて学習した名目政策に対して,国家安全の制約を認定するための制御理論的アプローチを開発する。
我々は、正式な安全保証を提供し、我々のアプローチの有効性を実証的に実証する。
論文 参考訳(メタデータ) (2022-07-04T11:43:23Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。