論文の概要: Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.12714v2
- Date: Mon, 9 Oct 2023 08:03:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 15:10:01.768678
- Title: Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning
- Title(参考訳): 最適保守オフライン強化学習におけるアクタークリティカルの重要性
- Authors: Hanlin Zhu, Paria Rashidinejad and Jiantao Jiao
- Abstract要約: データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
- 参考スコア(独自算出の注目度): 23.222448307481073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose A-Crab (Actor-Critic Regularized by Average Bellman error), a new
practical algorithm for offline reinforcement learning (RL) in complex
environments with insufficient data coverage. Our algorithm combines the
marginalized importance sampling framework with the actor-critic paradigm,
where the critic returns evaluations of the actor (policy) that are pessimistic
relative to the offline data and have a small average (importance-weighted)
Bellman error. Compared to existing methods, our algorithm simultaneously
offers a number of advantages: (1) It achieves the optimal statistical rate of
$1/\sqrt{N}$ -- where $N$ is the size of offline dataset -- in converging to
the best policy covered in the offline dataset, even when combined with general
function approximators. (2) It relies on a weaker average notion of policy
coverage (compared to the $\ell_\infty$ single-policy concentrability) that
exploits the structure of policy visitations. (3) It outperforms the
data-collection behavior policy over a wide range of specific hyperparameters.
We provide both theoretical analysis and experimental results to validate the
effectiveness of our proposed algorithm.
- Abstract(参考訳): データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実用的なアルゴリズムであるA-Crabを提案する。
提案アルゴリズムは,オフラインデータに対して悲観的であり,平均値(重要度重み付き)のベルマン誤差が小さいアクター(政治)の評価を返す,アクター批判パラダイムと疎結合である。
1) 一般的な関数近似器と組み合わせても、オフラインデータセットでカバーされる最高のポリシーに収束すると、$N$がオフラインデータセットのサイズである場合、$N$は1/\sqrt{N}$の最適な統計率を達成する。
2)政策カバレッジ($\ell_\infty$ single-policy concentrability)の弱い平均的な概念に依存しており、政策訪問の構造を利用している。
(3)多種多様なハイパーパラメータ上でのデータ収集行動ポリシーより優れる。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。