論文の概要: State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.15065v1
- Date: Mon, 28 Nov 2022 04:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:47:08.465050
- Title: State-Aware Proximal Pessimistic Algorithms for Offline Reinforcement
Learning
- Title(参考訳): オフライン強化学習のための状態認識近位悲観的アルゴリズム
- Authors: Chen Chen, Hongyao Tang, Yi Ma, Chao Wang, Qianli Shen, Dong Li,
Jianye Hao
- Abstract要約: ペシミズムはオフライン強化学習(RL)において非常に重要である
emphState-Aware Proximal Pessimism (SA-PP) と呼ばれるオフラインRLのためのアルゴリズムフレームワークを提案する。
- 参考スコア(独自算出の注目度): 36.34691755377286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pessimism is of great importance in offline reinforcement learning (RL). One
broad category of offline RL algorithms fulfills pessimism by explicit or
implicit behavior regularization. However, most of them only consider policy
divergence as behavior regularization, ignoring the effect of how the offline
state distribution differs with that of the learning policy, which may lead to
under-pessimism for some states and over-pessimism for others. Taking account
of this problem, we propose a principled algorithmic framework for offline RL,
called \emph{State-Aware Proximal Pessimism} (SA-PP). The key idea of SA-PP is
leveraging discounted stationary state distribution ratios between the learning
policy and the offline dataset to modulate the degree of behavior
regularization in a state-wise manner, so that pessimism can be implemented in
a more appropriate way. We first provide theoretical justifications on the
superiority of SA-PP over previous algorithms, demonstrating that SA-PP
produces a lower suboptimality upper bound in a broad range of settings.
Furthermore, we propose a new algorithm named \emph{State-Aware Conservative
Q-Learning} (SA-CQL), by building SA-PP upon representative CQL algorithm with
the help of DualDICE for estimating discounted stationary state distribution
ratios. Extensive experiments on standard offline RL benchmark show that SA-CQL
outperforms the popular baselines on a large portion of benchmarks and attains
the highest average return.
- Abstract(参考訳): ペシミズムはオフライン強化学習(RL)において非常に重要である。
オフラインRLアルゴリズムの幅広いカテゴリは、明示的または暗黙的な振舞い規則化によって悲観主義を満たす。
しかし、そのほとんどは、オフライン状態の分布が学習方針とどのように異なるかという影響を無視して、行動規則化として政策の分岐のみを考慮する。
この問題を考慮し、オフラインRLのための原理的アルゴリズムフレームワークである 'emph{State-Aware Proximal Pessimism} (SA-PP) を提案する。
SA-PPの鍵となる考え方は、学習ポリシーとオフラインデータセット間の定常状態分布比の割引を利用して、状態ワイドな振る舞い規則化の度合いを調整し、悲観性をより適切な方法で実装できるようにすることである。
まず, 従来のアルゴリズムよりもSA-PPの方が優れていることの理論的正当性を示し, 幅広い設定において, SA-PPが下位最適上界を生成することを示す。
さらに、DualDICEの助けを借りて、SA-PPを代表CQLアルゴリズム上に構築し、割引された定常状態分布比を推定することで、SA-CQLと呼ばれる新しいアルゴリズムを提案する。
標準のオフラインRLベンチマークに対する大規模な実験は、SA-CQLがベンチマークの大部分で一般的なベースラインを上回っ、最も高い平均リターンを達成したことを示している。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - STEEL: Singularity-aware Reinforcement Learning [14.424199399139804]
バッチ強化学習(RL)は、事前収集されたデータを利用して最適なポリシーを見つけることを目的としている。
本稿では,状態空間と行動空間の両方に特異性を持たせる新しいバッチRLアルゴリズムを提案する。
悲観主義といくつかの技術的条件を利用して、提案したアルゴリズムに対する最初の有限サンプル後悔保証を導出する。
論文 参考訳(メタデータ) (2023-01-30T18:29:35Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Offline RL Without Off-Policy Evaluation [49.11859771578969]
政治Qを用いた制約付き/規則化された政策改善の一段階を単に行うだけで、行動方針の予測が驚くほどうまく機能することを示す。
この1ステップのアルゴリズムは、D4RLベンチマークの大部分において、以前報告された反復アルゴリズムの結果を上回っている。
論文 参考訳(メタデータ) (2021-06-16T16:04:26Z) - Provably Good Batch Reinforcement Learning Without Great Exploration [51.51462608429621]
バッチ強化学習(RL)は、RLアルゴリズムを多くの高利得タスクに適用するために重要である。
最近のアルゴリズムは将来性を示しているが、期待された結果に対して過度に楽観的である。
より保守的な更新を行うため、ベルマンの最適性と評価のバックアップに小さな修正を加えることで、はるかに強力な保証が得られることを示す。
論文 参考訳(メタデータ) (2020-07-16T09:25:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。