Fugu-MT 論文翻訳(概要): Mildly Constrained Evaluation Policy for Offline Reinforcement Learning

論文の概要: Mildly Constrained Evaluation Policy for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2306.03680v1
Date: Tue, 6 Jun 2023 13:43:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-07 15:14:55.024156
Title: Mildly Constrained Evaluation Policy for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための軽度制約付き評価政策
Authors: Linjie Xu, Zhengyao Jiang, Jinyu Wang, Lei Song, Jiang Bian
Abstract要約: 本研究では,より制約のある目標ポリシによる評価時間推定のためのマイルド制約評価ポリシー(MCEP)を提案する。 MCEPはターゲットポリシーを著しく上回り、最先端のオフラインRL法と競合する結果を得る。
参考スコア（独自算出の注目度）: 11.456416280116322
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Offline reinforcement learning (RL) methodologies enforce constraints on the policy to adhere closely to the behavior policy, thereby stabilizing value learning and mitigating the selection of out-of-distribution (OOD) actions during test time. Conventional approaches apply identical constraints for both value learning and test time inference. However, our findings indicate that the constraints suitable for value estimation may in fact be excessively restrictive for action selection during test time. To address this issue, we propose a Mildly Constrained Evaluation Policy (MCEP) for test time inference with a more constrained target policy for value estimation. Since the target policy has been adopted in various prior approaches, MCEP can be seamlessly integrated with them as a plug-in. We instantiate MCEP based on TD3-BC [Fujimoto and Gu, 2021] and AWAC [Nair et al., 2020] algorithms. The empirical results on MuJoCo locomotion tasks show that the MCEP significantly outperforms the target policy and achieves competitive results to state-of-the-art offline RL methods. The codes are open-sourced at https://github.com/egg-west/MCEP.git.
Abstract（参考訳）: オフライン強化学習(rl)手法は、行動ポリシーに密着するポリシーに制約を課すことにより、価値学習を安定化し、テスト時間中にアウトオブディストリビューション(ood)アクションの選択を緩和する。従来のアプローチでは、バリューラーニングとテストタイム推論の両方に同じ制約を適用する。しかし, 実測値推定に適した制約は, テスト期間中の行動選択に過度に制限される可能性が示唆された。この問題に対処するため,より制約のある評価対象ポリシを用いたテスト時間推定のためのMCEP(Mildly Constrained Evaluation Policy)を提案する。 MCEPは,様々なアプローチでターゲットポリシーが採用されているため,プラグインとしてシームレスに統合することができる。 TD3-BC (Fujimoto and Gu, 2021) と AWAC (Nair et al., 2020) のアルゴリズムに基づいて MCEP をインスタンス化する。 MuJoCoのロコモーションタスクの実証結果は、MCEPがターゲットポリシーを著しく上回り、最先端のオフラインRL手法と競合する結果が得られることを示している。コードはhttps://github.com/egg-west/MCEP.gitで公開されている。

関連論文リスト

TD-M(PC)$^2$: Improving Temporal Difference MPC Through Policy Constraint [11.347808936693152]
モデルベースの強化学習アルゴリズムは、モデルベースの計画と学習された価値/政治を組み合わせる。バリューラーニングに標準のSACスタイルのポリシーイテレーションに依存する既存の手法は、しばしばエンハンピスタントな価値過大評価をもたらす。本稿では,ODAクエリを削減し,価値学習を改善する政策正規化項を提案する。
論文参考訳（メタデータ） (2025-02-05T19:08:42Z)
Learning Optimal Deterministic Policies with Stochastic Policy Gradients [62.81324245896716]
政策勾配法(PG法)は連続強化学習(RL法)問題に対処する手法として成功している。一般的には、収束(ハイパー)政治は、決定論的バージョンをデプロイするためにのみ学習される。本稿では,サンプルの複雑性とデプロイされた決定論的ポリシのパフォーマンスのトレードオフを最適化するために,学習に使用する探索レベルの調整方法を示す。
論文参考訳（メタデータ） (2024-05-03T16:45:15Z)
Offline Goal-Conditioned Reinforcement Learning for Safety-Critical Tasks with Recovery Policy [4.854443247023496]
オフライン目標条件強化学習(GCRL)は、オフラインデータセットから少ない報酬で目標達成タスクを解決することを目的としている。本稿では,RbSL(Recovery-based Supervised Learning)と呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2024-03-04T05:20:57Z)
Action-Quantized Offline Reinforcement Learning for Robotic Skill Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。本稿では,アクション量子化のための適応型スキームを提案する。 IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文参考訳（メタデータ） (2023-10-18T06:07:10Z)
When is Agnostic Reinforcement Learning Statistically Tractable? [76.1408672715773]
エンフスパンニング容量と呼ばれる新しい複雑性測度は、設定された$Pi$にのみ依存し、MDPダイナミクスとは独立である。我々は、学習するためにスーパーポリノミカルな数のサンプルを必要とする制限付きスパンリング能力を持つポリシークラス$Pi$が存在することを示した。これにより、生成的アクセスとオンラインアクセスモデルの間の学習可能性の驚くほどの分離が明らかになる。
論文参考訳（メタデータ） (2023-10-09T19:40:54Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文参考訳（メタデータ） (2021-10-12T17:05:05Z)
BRAC+: Improved Behavior Regularized Actor Critic for Offline Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文参考訳（メタデータ） (2021-10-02T23:55:49Z)
Direct Random Search for Fine Tuning of Deep Reinforcement Learning Policies [5.543220407902113]
直接ランダム検索は、決定論的ロールアウトを用いて直接最適化することにより、DRLポリシーを微調整するのに非常に効果的であることを示す。その結果, 本手法は, テストした環境において, より一貫性があり, 高性能なエージェントが得られることがわかった。
論文参考訳（メタデータ） (2021-09-12T20:12:46Z)
Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文参考訳（メタデータ） (2021-02-18T08:54:14Z)
Guided Constrained Policy Optimization for Dynamic Quadrupedal Robot Locomotion [78.46388769788405]
我々は,制約付きポリシー最適化(CPPO)の実装に基づくRLフレームワークであるGCPOを紹介する。誘導制約付きRLは所望の最適値に近い高速収束を実現し,正確な報酬関数チューニングを必要とせず,最適かつ物理的に実現可能なロボット制御動作を実現することを示す。
論文参考訳（メタデータ） (2020-02-22T10:15:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。