論文の概要: AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2301.10339v1
- Date: Tue, 24 Jan 2023 22:51:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 16:13:00.834911
- Title: AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement
Learning
- Title(参考訳): AutoCost: ゼロ違反強化学習の本質的なコスト向上
- Authors: Tairan He, Weiye Zhao, Changliu Liu
- Abstract要約: 我々は、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索するフレームワークであるAutoCostを提案する。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いたベースラインエージェントに付加的な内在的コストを与えるために,外在的コストのみを伴って比較した。
- 参考スコア(独自算出の注目度): 3.4806267677524896
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety is a critical hurdle that limits the application of deep reinforcement
learning (RL) to real-world control tasks. To this end, constrained
reinforcement learning leverages cost functions to improve safety in
constrained Markov decision processes. However, such constrained RL methods
fail to achieve zero violation even when the cost limit is zero. This paper
analyzes the reason for such failure, which suggests that a proper cost
function plays an important role in constrained RL. Inspired by the analysis,
we propose AutoCost, a simple yet effective framework that automatically
searches for cost functions that help constrained RL to achieve zero-violation
performance. We validate the proposed method and the searched cost function on
the safe RL benchmark Safety Gym. We compare the performance of augmented
agents that use our cost function to provide additive intrinsic costs with
baseline agents that use the same policy learners but with only extrinsic
costs. Results show that the converged policies with intrinsic costs in all
environments achieve zero constraint violation and comparable performance with
baselines.
- Abstract(参考訳): 安全性は、現実世界の制御タスクへの深層強化学習(RL)の適用を制限する重要なハードルである。
この目的のために、制約付き強化学習はコスト関数を利用してマルコフ決定プロセスの安全性を向上させる。
しかし、そのような制約付きRL法は、コスト制限がゼロであってもゼロ違反を達成できない。
本稿では,そのような障害の原因を解析し,制約付きrlにおいて適切なコスト関数が重要な役割を果たすことを示唆する。
この分析にインスパイアされたAutoCostは、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索する、シンプルで効果的なフレームワークである。
安全なRLベンチマークであるSafety Gym上で提案手法と検索コスト関数を検証した。
我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いるベースラインエージェントに付加的な内在コストを提供するために比較する。
その結果,全環境における本質的なコストを伴う収束ポリシは制約違反をゼロとし,ベースラインに匹敵する性能を達成できた。
関連論文リスト
- Switching the Loss Reduces the Cost in Batch (Offline) Reinforcement Learning [57.154674117714265]
本稿では,FQI-log を用いた準最適政策の学習に必要なサンプル数と,最適政策の累積コストについて述べる。
我々は,FQI-logが目標を確実に達成する問題に対して,2乗損失を訓練したFQIよりも少ないサンプルを用いていることを実証的に検証した。
論文 参考訳(メタデータ) (2024-03-08T15:30:58Z) - Imitate the Good and Avoid the Bad: An Incremental Approach to Safe Reinforcement Learning [11.666700714916065]
制約付きRLは強化学習における安全な行動を実施するためのフレームワークである。
制約付きRLを解くための最近の手法は、軌道に基づくコスト制約を代理問題に変換する。
トラジェクトリに基づくコスト制約を変更しず、代わりにグッドのトラジェクトリを模倣するアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-16T08:48:46Z) - A Multiplicative Value Function for Safe and Efficient Reinforcement
Learning [131.96501469927733]
本稿では,安全評論家と報酬評論家からなる新しい乗法値関数を持つモデルフリーRLアルゴリズムを提案する。
安全評論家は、制約違反の確率を予測し、制限のないリターンのみを見積もる報酬批評家を割引する。
安全制約を付加した古典的RLベンチマークや、画像を用いたロボットナビゲーションタスク、生のライダースキャンを観察する4つの環境において、本手法の評価を行った。
論文 参考訳(メタデータ) (2023-03-07T18:29:15Z) - Efficient Exploration Using Extra Safety Budget in Constrained Policy
Optimization [15.483557012655927]
本稿では, 探索効率と制約満足度とのバランスをとるために, ESB-CPO (Constrained Policy Optimization with Extra Safety Budget) というアルゴリズムを提案する。
提案手法は,ベースラインと比較して,同じコスト制限下での顕著な性能向上を実現している。
論文 参考訳(メタデータ) (2023-02-28T06:16:34Z) - Solving Richly Constrained Reinforcement Learning through State
Augmentation and Reward Penalties [8.86470998648085]
主な課題は、ポリシーを使用して蓄積された期待されるコストを扱うことだ。
既存の手法は、政策全体に対するこのコスト制約を、局所的な決定に対する制約に変換する革新的な方法を開発した。
我々は、拡張状態空間と報酬ペナルティを有する制約付きRLに等価な制約のない定式化を提供する。
論文 参考訳(メタデータ) (2023-01-27T08:33:08Z) - Evaluating Model-free Reinforcement Learning toward Safety-critical
Tasks [70.76757529955577]
本稿では、国家安全RLの観点から、この領域における先行研究を再考する。
安全最適化と安全予測を組み合わせた共同手法であるUnrolling Safety Layer (USL)を提案する。
この領域のさらなる研究を容易にするため、我々は関連するアルゴリズムを統一パイプラインで再現し、SafeRL-Kitに組み込む。
論文 参考訳(メタデータ) (2022-12-12T06:30:17Z) - Robust Reinforcement Learning in Continuous Control Tasks with
Uncertainty Set Regularization [17.322284328945194]
強化学習(Reinforcement Learning, RL)は、環境摂動下での一般化と堅牢性を欠いていると認識されている。
我々は $textbfU$ncertainty $textbfS$et $textbfR$egularizer (USR) という新しい正規化器を提案する。
論文 参考訳(メタデータ) (2022-07-05T12:56:08Z) - Timing is Everything: Learning to Act Selectively with Costly Actions
and Budgetary Constraints [9.132215354916784]
textbfLearnable textbfImpulse textbfControl textbfReinforcement textbfAlgorithm (licRA) という強化学習フレームワークを導入する。
licRA の中核は、RL とtextitimpulse control として知られるポリシーの形式を組み合わせたネスト構造であり、アクションがコストを発生させたときに目的を最大化することを学ぶ。
licRAが最適値関数を学習し、予算制約がほぼ確実に満たされることを示す。
論文 参考訳(メタデータ) (2022-05-31T16:50:46Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - Cost-Sensitive Portfolio Selection via Deep Reinforcement Learning [100.73223416589596]
深層強化学習を用いたコスト依存型ポートフォリオ選択手法を提案する。
具体的には、価格系列パターンと資産相関の両方を抽出するために、新しい2ストリームポートフォリオポリシーネットワークを考案した。
蓄積したリターンを最大化し、強化学習によるコストの両立を抑えるため、新たなコスト感受性報酬関数が開発された。
論文 参考訳(メタデータ) (2020-03-06T06:28:17Z) - Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot
Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。
誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文 参考訳(メタデータ) (2020-02-22T10:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。