論文の概要: Mildly Constrained Evaluation Policy for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.03680v1
- Date: Tue, 6 Jun 2023 13:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-07 15:14:55.024156
- Title: Mildly Constrained Evaluation Policy for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための軽度制約付き評価政策
- Authors: Linjie Xu, Zhengyao Jiang, Jinyu Wang, Lei Song, Jiang Bian
- Abstract要約: 本研究では,より制約のある目標ポリシによる評価時間推定のためのマイルド制約評価ポリシー(MCEP)を提案する。
MCEPはターゲットポリシーを著しく上回り、最先端のオフラインRL法と競合する結果を得る。
- 参考スコア(独自算出の注目度): 11.456416280116322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning (RL) methodologies enforce constraints on the
policy to adhere closely to the behavior policy, thereby stabilizing value
learning and mitigating the selection of out-of-distribution (OOD) actions
during test time. Conventional approaches apply identical constraints for both
value learning and test time inference. However, our findings indicate that the
constraints suitable for value estimation may in fact be excessively
restrictive for action selection during test time. To address this issue, we
propose a Mildly Constrained Evaluation Policy (MCEP) for test time inference
with a more constrained target policy for value estimation. Since the target
policy has been adopted in various prior approaches, MCEP can be seamlessly
integrated with them as a plug-in. We instantiate MCEP based on TD3-BC
[Fujimoto and Gu, 2021] and AWAC [Nair et al., 2020] algorithms. The empirical
results on MuJoCo locomotion tasks show that the MCEP significantly outperforms
the target policy and achieves competitive results to state-of-the-art offline
RL methods. The codes are open-sourced at https://github.com/egg-west/MCEP.git.
- Abstract(参考訳): オフライン強化学習(rl)手法は、行動ポリシーに密着するポリシーに制約を課すことにより、価値学習を安定化し、テスト時間中にアウトオブディストリビューション(ood)アクションの選択を緩和する。
従来のアプローチでは、バリューラーニングとテストタイム推論の両方に同じ制約を適用する。
しかし, 実測値推定に適した制約は, テスト期間中の行動選択に過度に制限される可能性が示唆された。
この問題に対処するため,より制約のある評価対象ポリシを用いたテスト時間推定のためのMCEP(Mildly Constrained Evaluation Policy)を提案する。
MCEPは,様々なアプローチでターゲットポリシーが採用されているため,プラグインとしてシームレスに統合することができる。
TD3-BC (Fujimoto and Gu, 2021) と AWAC (Nair et al., 2020) のアルゴリズムに基づいて MCEP をインスタンス化する。
MuJoCoのロコモーションタスクの実証結果は、MCEPがターゲットポリシーを著しく上回り、最先端のオフラインRL手法と競合する結果が得られることを示している。
コードはhttps://github.com/egg-west/MCEP.gitで公開されている。
関連論文リスト
- Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Policy Regularization with Dataset Constraint for Offline Reinforcement
Learning [27.868687398300658]
オフライン強化学習(Local Reinforcement Learning, RL)と呼ばれる,固定データセットから最善のポリシーを学習する問題を考察する。
本稿では、最も近い状態-作用対に対するポリシーの規則化がより効果的であることを発見し、データセット制約(PRDC)によるポリシーの規則化を提案する。
PRDCは、データセットから適切な振る舞いでポリシーをガイドし、与えられた状態に沿ってデータセットに現れないアクションを選択することができる。
論文 参考訳(メタデータ) (2023-06-11T03:02:10Z) - Conformal Off-Policy Evaluation in Markov Decision Processes [53.786439742572995]
強化学習は、データから効率的な制御ポリシーを特定し評価することを目的としている。
この学習タスクのほとんどの方法は、Off-Policy Evaluation (OPE)と呼ばれ、正確さと確実性を保証するものではない。
本稿では,目標方針の真報を含む区間を所定の確信度で出力するコンフォーマル予測に基づく新しいOPE手法を提案する。
論文 参考訳(メタデータ) (2023-04-05T16:45:11Z) - Offline Policy Evaluation and Optimization under Confounding [35.778917456294046]
構築されたMDPのオフライン政策評価の状況について概説する。
一貫性のある値推定が達成不可能な設定を特徴付ける。
オフライン政策改善のための新しいアルゴリズムを提案し、局所収束保証を証明する。
論文 参考訳(メタデータ) (2022-11-29T20:45:08Z) - COptiDICE: Offline Constrained Reinforcement Learning via Stationary
Distribution Correction Estimation [73.17078343706909]
オフラインの制約付き強化学習(RL)問題。エージェントは、所定のコスト制約を満たしながら期待されるリターンを最大化するポリシーを計算し、事前に収集されたデータセットからのみ学習する。
定常分布空間におけるポリシーを最適化するオフライン制約付きRLアルゴリズムを提案する。
我々のアルゴリズムであるCOptiDICEは、コスト上限を制約しながら、利益に対する最適政策の定常分布補正を直接見積もる。
論文 参考訳(メタデータ) (2022-04-19T15:55:47Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Doubly Robust Off-Policy Value and Gradient Estimation for Deterministic
Policies [80.42316902296832]
本研究では,行動継続時の非政治データから決定論的政策の政策値と勾配を推定する。
この設定では、密度比が存在しないため、標準重要度サンプリングとポリシー値と勾配の2倍の頑健な推定が失敗する。
異なるカーネル化アプローチに基づく2つの新しい頑健な推定器を提案する。
論文 参考訳(メタデータ) (2020-06-06T15:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。