論文の概要: Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2306.05726v2
- Date: Tue, 17 Oct 2023 16:25:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-18 21:19:56.396156
- Title: Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための反復精製行動規則化
- Authors: Xiaohan Hu, Yi Ma, Chenjun Xiao, Yan Zheng, Jianye Hao
- Abstract要約: 本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 57.10922880400715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the fundamental challenges for offline reinforcement learning (RL) is
ensuring robustness to data distribution. Whether the data originates from a
near-optimal policy or not, we anticipate that an algorithm should demonstrate
its ability to learn an effective control policy that seamlessly aligns with
the inherent distribution of offline data. Unfortunately, behavior
regularization, a simple yet effective offline RL algorithm, tends to struggle
in this regard. In this paper, we propose a new algorithm that substantially
enhances behavior-regularization based on conservative policy iteration. Our
key observation is that by iteratively refining the reference policy used for
behavior regularization, conservative policy update guarantees gradually
improvement, while also implicitly avoiding querying out-of-sample actions to
prevent catastrophic learning failures. We prove that in the tabular setting
this algorithm is capable of learning the optimal policy covered by the offline
dataset, commonly referred to as the in-sample optimal policy. We then explore
several implementation details of the algorithm when function approximations
are applied. The resulting algorithm is easy to implement, requiring only a few
lines of code modification to existing methods. Experimental results on the
D4RL benchmark indicate that our method outperforms previous state-of-the-art
baselines in most tasks, clearly demonstrate its superiority over behavior
regularization.
- Abstract(参考訳): オフライン強化学習(RL)の基本的な課題の1つは、データ分散に対する堅牢性を保証することである。
データが最適に近いポリシーに由来するかどうかに関わらず、オフラインデータ固有の分布とシームレスに整合する効果的な制御ポリシーを学習する能力を示すアルゴリズムを期待する。
残念ながら、単純なオフラインRLアルゴリズムである振舞い正則化は、この点で苦労する傾向がある。
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
我々のキーとなる観察は、行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善し、また、破滅的な学習失敗を防ぐために、暗黙的にサンプル外アクションのクエリを避けることである。
このアルゴリズムは表の設定において、オフラインデータセットでカバーされる最適なポリシーを学習できることを実証する。
次に,関数近似を適用したアルゴリズムの実装の詳細について検討する。
結果として得られるアルゴリズムは実装が容易で、既存のメソッドにほんの数行のコード修正しか必要ありません。
d4rlベンチマークにおける実験結果から,本手法は従来の動作正規化よりも優れていることが判明した。
関連論文リスト
- CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文 参考訳(メタデータ) (2022-11-29T06:29:26Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。