論文の概要: Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators
- arxiv url: http://arxiv.org/abs/2211.15956v3
- Date: Sat, 22 Jul 2023 07:56:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 00:19:35.678393
- Title: Offline Reinforcement Learning with Closed-Form Policy Improvement
Operators
- Title(参考訳): クローズドフォームポリシー改善オペレータによるオフライン強化学習
- Authors: Jiachen Li, Edwin Zhang, Ming Yin, Qinxun Bai, Yu-Xiang Wang, William
Yang Wang
- Abstract要約: 行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。
本稿では,閉形式政策改善演算子を提案する。
我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
- 参考スコア(独自算出の注目度): 88.54210578912554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavior constrained policy optimization has been demonstrated to be a
successful paradigm for tackling Offline Reinforcement Learning. By exploiting
historical transitions, a policy is trained to maximize a learned value
function while constrained by the behavior policy to avoid a significant
distributional shift. In this paper, we propose our closed-form policy
improvement operators. We make a novel observation that the behavior constraint
naturally motivates the use of first-order Taylor approximation, leading to a
linear approximation of the policy objective. Additionally, as practical
datasets are usually collected by heterogeneous policies, we model the behavior
policies as a Gaussian Mixture and overcome the induced optimization
difficulties by leveraging the LogSumExp's lower bound and Jensen's Inequality,
giving rise to a closed-form policy improvement operator. We instantiate
offline RL algorithms with our novel policy improvement operators and
empirically demonstrate their effectiveness over state-of-the-art algorithms on
the standard D4RL benchmark. Our code is available at
https://cfpi-icml23.github.io/.
- Abstract(参考訳): 行動制約付きポリシー最適化は、オフライン強化学習に取り組むための成功パラダイムであることが示されている。
歴史的遷移を利用することによって、政策は、重要な分布シフトを避けるために行動ポリシーによって制約されながら、学習価値関数を最大化するように訓練される。
本稿では,閉形式政策改善演算子を提案する。
本稿では, 行動制約が一階テイラー近似の利用を自然に動機付け, 政策目標の線形近似に繋がる新規な観察を行う。
さらに,実用的なデータセットは通常,異種ポリシによって収集されるため,ガウス混合として行動ポリシーをモデル化し,logsumsumexpの下限とjensenの不等式を活用して誘導された最適化の困難を克服し,クローズドフォームな政策改善オペレーターを創出する。
オフラインRLアルゴリズムを新しいポリシー改善演算子でインスタンス化し、標準D4RLベンチマークにおける最先端アルゴリズムに対する有効性を実証的に示す。
私たちのコードはhttps://cfpi-icml23.github.io/で利用可能です。
関連論文リスト
- Forward KL Regularized Preference Optimization for Aligning Diffusion Policies [8.958830452149789]
拡散政策の学習における中心的な問題は、様々なタスクにおいて、政策の出力と人間の意図を一致させることである。
そこで本稿では,拡散ポリシーを優先事項と整合させる新しいフレームワーク,フォワードKL正規化参照最適化を提案する。
その結果,提案手法は好みとの整合性が優れ,従来の最先端アルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2024-09-09T13:56:03Z) - CDSA: Conservative Denoising Score-based Algorithm for Offline Reinforcement Learning [25.071018803326254]
オフラインの強化学習において、分散シフトは大きな障害である。
以前の保守的なオフラインRLアルゴリズムは、目に見えないアクションに一般化するのに苦労した。
本稿では、事前学習したオフラインRLアルゴリズムから生成されたデータセット密度の勾配場を用いて、元の動作を調整することを提案する。
論文 参考訳(メタデータ) (2024-06-11T17:59:29Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Offline Policy Optimization in RL with Variance Regularizaton [142.87345258222942]
定常分布補正を用いたオフラインRLアルゴリズムの分散正則化を提案する。
Fenchel双対性を用いることで、分散正規化器の勾配を計算するための二重サンプリング問題を回避することができることを示す。
オフライン分散正規化アルゴリズム(OVAR)は,既存のオフラインポリシー最適化アルゴリズムを拡張できる。
論文 参考訳(メタデータ) (2022-12-29T18:25:01Z) - Model-based trajectory stitching for improved behavioural cloning and
its applications [7.462336024223669]
トラジェクティブ・スティッチング(TS)は、元のデータで切断された状態のペアを縫い合わせることで、新しいトラジェクトリを生成する。
古い軌道を新しい軌道に置き換える反復的プロセスが、基礎となる行動方針を漸進的に改善することを示した。
論文 参考訳(メタデータ) (2022-12-08T14:18:04Z) - Mutual Information Regularized Offline Reinforcement Learning [76.05299071490913]
我々は、データセットにおける状態と行動間の相互情報の観点から、オフラインRLにアプローチする新しいMISAフレームワークを提案する。
この下位境界の最適化は、オフラインデータセット上での一段階改善されたポリシーの可能性の最大化と等価であることを示す。
MISAの3つの異なる変種を導入し、より厳密な相互情報によりオフラインのRL性能が向上することを示した。
論文 参考訳(メタデータ) (2022-10-14T03:22:43Z) - Offline Reinforcement Learning with Soft Behavior Regularization [0.8937096931077437]
本研究では,オフライン設定で使用可能な新しいポリシー学習目標を導出する。
以前のアプローチで使用されていた状態非依存の正規化とは異なり、このテキストソフト正規化はポリシー逸脱のより自由な自由を可能にする。
実験結果から,SBACは連続的な制御ロコモーションと操作タスクのセットにおいて,最先端技術に適合または優れることが示された。
論文 参考訳(メタデータ) (2021-10-14T14:29:44Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。