論文の概要: Efficient Trust Region-Based Safe Reinforcement Learning with Low-Bias
Distributional Actor-Critic
- arxiv url: http://arxiv.org/abs/2301.10923v1
- Date: Thu, 26 Jan 2023 04:05:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 14:29:52.519748
- Title: Efficient Trust Region-Based Safe Reinforcement Learning with Low-Bias
Distributional Actor-Critic
- Title(参考訳): 低バイアス分布Actor-Criticを用いた信頼領域に基づく安全な強化学習
- Authors: Dohyeong Kim, Kyungjae Lee, Songhwai Oh
- Abstract要約: 本稿では,制約を一貫して満たす信頼領域法に基づく安全な分布RL法を提案する。
政策は、分布批判者の推定バイアスのため、安全ガイドラインを満たさない可能性がある。
安全でない初期ポリシーから制約を満たすポリシーを見つけることを保証する勾配積分法を提案する。
- 参考スコア(独自算出の注目度): 22.986664856496848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To apply reinforcement learning (RL) to real-world applications, agents are
required to adhere to the safety guidelines of their respective domains. Safe
RL can effectively handle the guidelines by converting them into constraints of
the RL problem. In this paper, we develop a safe distributional RL method based
on the trust region method, which can satisfy constraints consistently.
However, policies may not meet the safety guidelines due to the estimation bias
of distributional critics, and importance sampling required for the trust
region method can hinder performance due to its significant variance. Hence, we
enhance safety performance through the following approaches. First, we train
distributional critics to have low estimation biases using proposed target
distributions where bias-variance can be traded off. Second, we propose novel
surrogates for the trust region method expressed with Q-functions using the
reparameterization trick. Additionally, depending on initial policy settings,
there can be no policy satisfying constraints within a trust region. To handle
this infeasible issue, we propose a gradient integration method which
guarantees to find a policy satisfying all constraints from an unsafe initial
policy. From extensive experiments, the proposed method with risk-averse
constraints shows minimal constraint violations while achieving high returns
compared to existing safe RL methods.
- Abstract(参考訳): 実世界の応用に強化学習(RL)を適用するためには、エージェントはそれぞれのドメインの安全ガイドラインに従う必要がある。
安全なRLは、それらをRL問題の制約に変換することで、ガイドラインを効果的に処理できる。
本稿では,信頼領域法に基づいて,制約を一貫して満たした安全な分散rl法を提案する。
しかし、分布批判者の推定バイアスのため、政策は安全ガイドラインを満たさない可能性があり、信頼領域法に必要な重要サンプリングは、その大きなばらつきにより性能を損なう可能性がある。
したがって, 安全性能は以下の方法で向上する。
まず, バイアス分散をトレードオフ可能な対象分布を用いて, 評価バイアスの低い分布批判者を訓練する。
第二に,再パラメータ化手法を用いてq関数で表現した信頼領域法に対する新しいサロゲートを提案する。
さらに、初期ポリシー設定によっては、信頼領域内の制約を満たすポリシーは存在しない。
この問題に対処するために、安全でない初期ポリシーから全ての制約を満たすポリシーを見つけることを保証する勾配積分法を提案する。
リスク逆制約を用いた提案手法は,既存の安全RL法と比較して高いリターンを達成しつつ,最小限の制約違反を示す。
関連論文リスト
- One-Shot Safety Alignment for Large Language Models via Optimal Dualization [64.52223677468861]
本稿では,制約付きアライメントを等価な非制約アライメント問題に還元する双対化の観点を提案する。
我々は、閉形式を持つ滑らかで凸な双対函数を事前に最適化する。
我々の戦略は、モデルベースと嗜好ベースのシナリオにおける2つの実用的なアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2024-05-29T22:12:52Z) - Conflict-Averse Gradient Aggregation for Constrained Multi-Objective Reinforcement Learning [13.245000585002858]
多くの実世界の応用において、強化学習(RL)エージェントは、複数の目的を考慮し、安全ガイドラインに従うべきである。
制約付き多目的勾配集約アルゴリズム(Constrained Multi-Objective Gradient Aggregator, CoGAMO)を提案する。
論文 参考訳(メタデータ) (2024-03-01T04:57:13Z) - Uniformly Safe RL with Objective Suppression for Multi-Constraint Safety-Critical Applications [73.58451824894568]
広く採用されているCMDPモデルは予測のリスクを制約しており、長い尾の州で危険な行動を起こす余地がある。
安全クリティカルな領域では、そのような行動は破滅的な結果をもたらす可能性がある。
本稿では,目標を最大化するタスク報酬を適応的に抑制する新しい手法であるObjective Suppressionを提案する。
論文 参考訳(メタデータ) (2024-02-23T23:22:06Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Handling Long and Richly Constrained Tasks through Constrained
Hierarchical Reinforcement Learning [20.280636126917614]
目標の安全性 強化学習(RL)の設定は通常、軌道上の制約によって処理される。
本稿では,上位レベルの制約付き検索エージェントと下位レベルの目標条件付きRLエージェントを組み合わせた(安全)階層型強化学習(CoSHRL)機構を提案する。
CoSHRLの大きな利点は、コスト値分布の制約を処理でき、再トレーニングなしに柔軟な制約しきい値に調整できることである。
論文 参考訳(メタデータ) (2023-02-21T12:57:12Z) - Safety Correction from Baseline: Towards the Risk-aware Policy in
Robotics via Dual-agent Reinforcement Learning [64.11013095004786]
本稿では,ベースラインと安全エージェントからなる二重エージェント型安全強化学習戦略を提案する。
このような分離されたフレームワークは、RLベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。
提案手法は,難易度の高いロボットの移動・操作作業において,最先端の安全RLアルゴリズムより優れる。
論文 参考訳(メタデータ) (2022-12-14T03:11:25Z) - Safe Exploration Incurs Nearly No Additional Sample Complexity for
Reward-free RL [43.672794342894946]
Reward-free reinforcement learning (RF-RL) は、未知の環境を探索するランダムなアクションテイクに依存する。
このような安全な探索要求が、得られた政策の計画における望ましい最適性を達成するために、対応するサンプルの複雑さにどのように影響するかは、いまだ不明である。
本稿では,Safe reWard-frEe ExploraTion (SWEET) フレームワークを提案し,Tabular-SWEET と Low-rank-SWEET というアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-28T15:00:45Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - On Lower Bounds for Standard and Robust Gaussian Process Bandit
Optimization [55.937424268654645]
有界ノルムを持つ関数のブラックボックス最適化問題に対するアルゴリズム非依存な下界を考える。
本稿では, 単純さ, 汎用性, エラー確率への依存性の向上など, 後悔の下位境界を導出するための新しい証明手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T03:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。