論文の概要: In-Sample Policy Iteration for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2306.05726v1
- Date: Fri, 9 Jun 2023 07:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-12 14:18:32.019857
- Title: In-Sample Policy Iteration for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのインサンプルポリシーイテレーション
- Authors: Xiaohan Hu, Yi Ma, Chenjun Xiao, Yan Zheng, Zhaopeng Meng
- Abstract要約: オフライン強化学習は、以前に収集されたデータから効果的な制御ポリシーを導き出そうとする。
オフラインRLにおける動作規則化手法を大幅に強化する,サンプル内ポリシを用いた新しいアルゴリズムを提案する。
我々の理論的分析は、データセットでよく発見されたアクションを専門に活用して、サンプル内最適ポリシーを学習する能力を検証する。
- 参考スコア(独自算出の注目度): 24.72387357147513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) seeks to derive an effective control
policy from previously collected data. To circumvent errors due to inadequate
data coverage, behavior-regularized methods optimize the control policy while
concurrently minimizing deviation from the data collection policy.
Nevertheless, these methods often exhibit subpar practical performance,
particularly when the offline dataset is collected by sub-optimal policies. In
this paper, we propose a novel algorithm employing in-sample policy iteration
that substantially enhances behavior-regularized methods in offline RL. The
core insight is that by continuously refining the policy used for behavior
regularization, in-sample policy iteration gradually improves itself while
implicitly avoids querying out-of-sample actions to avert catastrophic learning
failures. Our theoretical analysis verifies its ability to learn the in-sample
optimal policy, exclusively utilizing actions well-covered by the dataset.
Moreover, we propose competitive policy improvement, a technique applying two
competitive policies, both of which are trained by iteratively improving over
the best competitor. We show that this simple yet potent technique
significantly enhances learning efficiency when function approximation is
applied. Lastly, experimental results on the D4RL benchmark indicate that our
algorithm outperforms previous state-of-the-art methods in most tasks.
- Abstract(参考訳): オフライン強化学習(RL)は、以前に収集したデータから効果的な制御ポリシーを導き出そうとする。
データカバレッジの不足によるエラーを回避するため、データ収集ポリシーからの逸脱を同時に最小化しつつ、動作調整手法が制御ポリシーを最適化する。
にもかかわらず、これらの手法は、特にオフラインデータセットが準最適ポリシーによって収集される場合、劣った実用性能を示すことが多い。
本稿では,オフラインRLにおける動作規則化手法を大幅に強化する,サンプル内ポリシー反復を用いた新しいアルゴリズムを提案する。
中心となる洞察は、振る舞いの規則化に使用されるポリシーを継続的に精錬することで、サンプル内ポリシーイテレーションは徐々に自己改善され、暗黙的にサンプル外アクションのクエリを回避して破滅的な学習障害を回避することだ。
我々の理論的分析は、データセットでよく発見されたアクションのみを利用して、サンプル内最適ポリシーを学習する能力を検証する。
さらに,2つの競争政策を適用する手法である競争政策改善を提案する。
本手法は,関数近似を適用した場合,学習効率を大幅に向上することを示す。
最後に、D4RLベンチマークの実験結果から、我々のアルゴリズムは、ほとんどのタスクにおいて従来の最先端手法よりも優れていることが示された。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。