論文の概要: State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards
- arxiv url: http://arxiv.org/abs/2102.11941v1
- Date: Tue, 23 Feb 2021 21:07:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:21:43.360045
- Title: State Augmented Constrained Reinforcement Learning: Overcoming the
Limitations of Learning with Rewards
- Title(参考訳): 状態強化強化強化学習: 報酬による学習の限界を克服する
- Authors: Miguel Calvo-Fullana, Santiago Paternain, Luiz F. O. Chamon, Alejandro
Ribeiro
- Abstract要約: 任意の報酬の線形結合によって望ましい最適政策を誘導できない簡単な例を示す。
この仕事は、Lagrange乗算器で状態を強化することによってこの欠点に対処する。
拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。
- 参考スコア(独自算出の注目度): 119.8736858597118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constrained reinforcement learning involves multiple rewards that must
individually accumulate to given thresholds. In this class of problems, we show
a simple example in which the desired optimal policy cannot be induced by any
linear combination of rewards. Hence, there exist constrained reinforcement
learning problems for which neither regularized nor classical primal-dual
methods yield optimal policies. This work addresses this shortcoming by
augmenting the state with Lagrange multipliers and reinterpreting primal-dual
methods as the portion of the dynamics that drives the multipliers evolution.
This approach provides a systematic state augmentation procedure that is
guaranteed to solve reinforcement learning problems with constraints. Thus,
while primal-dual methods can fail at finding optimal policies, running the
dual dynamics while executing the augmented policy yields an algorithm that
provably samples actions from the optimal policy.
- Abstract(参考訳): 制約付き強化学習は、与えられたしきい値に個別に蓄積しなければならない複数の報酬を伴う。
この問題のクラスでは、報酬の任意の線形組み合わせによって所望の最適政策を誘導することができない簡単な例を示します。
したがって、正規化法も古典的原始的方法も最適方針を与えない制約付き強化学習問題が存在する。
この研究は、Lagrange乗算器で状態を増強し、プリミラル・デュアルメソッドを乗算器の進化を駆動するダイナミクスの部分として再解釈することによって、この欠点に対処する。
このアプローチは、制約付き強化学習問題を解決するための体系的な状態拡張手順を提供する。
したがって、原始双対法は最適なポリシーを見つけるのに失敗する可能性があるが、拡張ポリシーを実行しながらデュアルダイナミクスを実行すると、最適なポリシーからアクションを確実にサンプリングするアルゴリズムが得られる。
関連論文リスト
- Adversarial Constrained Policy Optimization: Improving Constrained Reinforcement Learning by Adapting Budgets [6.5472155063246085]
制約付き強化学習は、報酬と制約の両方が考慮される安全クリティカルな分野において、有望な進歩を遂げてきた。
本稿では,報酬の同時最適化とトレーニング中のコスト予算の適応を可能にする適応的制約付き政策最適化(ACPO)を提案する。
論文 参考訳(メタデータ) (2024-10-28T07:04:32Z) - A Dual Perspective of Reinforcement Learning for Imposing Policy Constraints [0.0]
我々は、価値ベースおよびアクター批判的強化学習法において、汎用的な原始双対フレームワークを使用する。
得られた二重定式化は、学習されたポリシーにさらなる制約を与えるのに特に有用であることが判明した。
トレーニングを通じて自動的に処理されるポリシー制約の様々な組み合わせをサポートする実用的なアルゴリズムが導出される。
論文 参考訳(メタデータ) (2024-04-25T09:50:57Z) - Constrained Reinforcement Learning via Dissipative Saddle Flow Dynamics [5.270497591225775]
制約強化学習(C-RL)において、エージェントは期待される累積報酬を最大化するポリシーを環境から学ぼうとする。
サンプルベース原始双対法に根ざしたいくつかのアルゴリズムが、政策空間においてこの問題を解決するために最近提案されている。
本稿では,制約付きRLに対して,これらの制約に悩まされない新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-03T01:54:55Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step
Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。
本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文 参考訳(メタデータ) (2022-08-01T11:33:12Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Risk-Sensitive Deep RL: Variance-Constrained Actor-Critic Provably Finds
Globally Optimal Policy [95.98698822755227]
本研究は,リスクに敏感な深層強化学習を,分散リスク基準による平均報酬条件下で研究する試みである。
本稿では,ポリシー,ラグランジュ乗算器,フェンシェル双対変数を反復的かつ効率的に更新するアクタ批判アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-28T05:02:26Z) - Ensuring Monotonic Policy Improvement in Entropy-regularized Value-based
Reinforcement Learning [14.325835899564664]
Entropy-regularized value-based reinforcement learning methodは、ポリシー更新毎にポリシーの単調な改善を保証する。
本稿では,政策変動緩和のためのポリシー更新の度合いを調整するための基準として,この下界を利用した新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-25T04:09:18Z) - Novel Policy Seeking with Constrained Optimization [131.67409598529287]
本稿では,強化学習課題における新しい政策作成の問題を再考する。
まず、政策間の差異を評価するための新しい指標を導入し、2つの実用的な政策生成手法を設計する。
The Constrained Task Novel Bisector (CTNB) and the internal Policy Differentiation (IPD) is derived from the fiable direction method and the interior point method known in the constrained optimization literature。
論文 参考訳(メタデータ) (2020-05-21T14:39:14Z) - Reward-Conditioned Policies [100.64167842905069]
模倣学習には、ほぼ最適の専門家データが必要である。
実演なしで指導的学習を通じて効果的な政策を学べるか?
政策探索の原則的手法として,このようなアプローチを導出する方法を示す。
論文 参考訳(メタデータ) (2019-12-31T18:07:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。