論文の概要: COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation
- arxiv url: http://arxiv.org/abs/2204.08957v1
- Date: Tue, 19 Apr 2022 15:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 14:20:13.575963
- Title: COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation
- Title(参考訳): COptiDICE: 定常分布補正推定によるオフライン制約強化学習
- Authors: Jongmin Lee, Cosmin Paduraru, Daniel J. Mankowitz, Nicolas Heess,
Doina Precup, Kee-Eung Kim, Arthur Guez
- Abstract要約: オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
- 参考スコア(独自算出の注目度): 73.17078343706909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the offline constrained reinforcement learning (RL) problem, in
which the agent aims to compute a policy that maximizes expected return while
satisfying given cost constraints, learning only from a pre-collected dataset.
This problem setting is appealing in many real-world scenarios, where direct
interaction with the environment is costly or risky, and where the resulting
policy should comply with safety constraints. However, it is challenging to
compute a policy that guarantees satisfying the cost constraints in the offline
RL setting, since the off-policy evaluation inherently has an estimation error.
In this paper, we present an offline constrained RL algorithm that optimizes
the policy in the space of the stationary distribution. Our algorithm,
COptiDICE, directly estimates the stationary distribution corrections of the
optimal policy with respect to returns, while constraining the cost upper
bound, with the goal of yielding a cost-conservative policy for actual
constraint satisfaction. Experimental results show that COptiDICE attains
better policies in terms of constraint satisfaction and return-maximization,
outperforming baseline algorithms.
- Abstract(参考訳): エージェントは、所定のコスト制約を満たしながら、事前収集されたデータセットからのみ学習しながら、期待リターンを最大化するポリシーの計算を目標とする、オフライン制約強化学習(rl)問題を考える。
この問題の設定は、環境との直接的な相互作用がコストかリスクがかかり、結果として得られるポリシーが安全上の制約を満たすべきという、多くの現実世界のシナリオにおいて魅力的である。
しかし,非政治評価には本質的に推定誤差があるため,オフラインのRL設定におけるコスト制約を満たすポリシーを計算することは困難である。
本稿では,静止分布の空間におけるポリシーを最適化するオフライン制約付きrlアルゴリズムを提案する。
提案手法であるcoptidiceは,実際の制約満足度に対するコスト保存ポリシーの付与を目標とし,コスト上限を制約しながら,最適方針の定常分布補正を直接推定する。
実験結果から,COptiDICEは制約満足度やリターン最大化の点で,ベースラインアルゴリズムよりも優れたポリシを実現することが示された。
関連論文リスト
- Resilient Constrained Reinforcement Learning [87.4374430686956]
本稿では,複数の制約仕様を事前に特定しない制約付き強化学習(RL)のクラスについて検討する。
報酬訓練目標と制約満足度との間に不明確なトレードオフがあるため、適切な制約仕様を特定することは困難である。
我々は、ポリシーと制約仕様を一緒に検索する新しい制約付きRLアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-28T18:28:23Z) - Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Distributional constrained reinforcement learning for supply chain
optimization [0.0]
本稿では、強化学習における信頼性の高い制約満足度のための新しいアプローチである分散制約政策最適化(DCPO)を紹介する。
我々は、DCPOがRLポリシーの収束率を改善し、トレーニングの終了までに信頼性の高い制約満足度を確保することを示す。
論文 参考訳(メタデータ) (2023-02-03T13:43:02Z) - Optimal Conservative Offline RL with General Function Approximation via
Augmented Lagrangian [18.2080757218886]
オフライン強化学習(英語: offline reinforcement learning、RL)とは、かつて収集された相互作用のデータセットから決定を下すことを指す。
一般関数近似と単一政治集中性において統計的に最適で実用的なオフラインRLアルゴリズムの最初のセットを示す。
論文 参考訳(メタデータ) (2022-11-01T19:28:48Z) - Penalized Proximal Policy Optimization for Safe Reinforcement Learning [68.86485583981866]
本稿では、等価な制約のない問題の単一最小化により、煩雑な制約付きポリシー反復を解決するP3Oを提案する。
P3Oは、コスト制約を排除し、クリップされたサロゲート目的による信頼領域制約を除去するために、単純なyet効果のペナルティ関数を利用する。
P3Oは,一連の制約された機関車作業において,報酬改善と制約満足度の両方に関して,最先端のアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-05-24T06:15:51Z) - Off-Policy Evaluation with Policy-Dependent Optimization Response [90.28758112893054]
我々は,テキスト政治に依存した線形最適化応答を用いた非政治評価のための新しいフレームワークを開発した。
摂動法による政策依存推定のための非バイアス推定器を構築する。
因果介入を最適化するための一般的なアルゴリズムを提供する。
論文 参考訳(メタデータ) (2022-02-25T20:25:37Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Off-Policy Optimization of Portfolio Allocation Policies under
Constraints [0.8848340429852071]
財務の動的ポートフォリオ最適化問題には、投資家の好みとリスクによって、さまざまな制約に従う学習ポリシーが頻繁に必要です。
本研究の目的は, 逐次的意思決定枠組み内でアロケーションポリシを見つけることであり, (a) 適用済みのポリシに基づいて収集されたデータを使用すること, (b) 所望の制約を課すこと, (b) ほぼ最適ポリシーをこのデータで計算することである。
論文 参考訳(メタデータ) (2020-12-21T22:22:04Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。