論文の概要: Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity
- arxiv url: http://arxiv.org/abs/2202.13890v1
- Date: Mon, 28 Feb 2022 15:39:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-01 14:54:43.342923
- Title: Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity
- Title(参考訳): オフライン強化学習のための悲観的なQ-Learning:最適サンプル複雑度を目指して
- Authors: Laixi Shi, Gen Li, Yuting Wei, Yuxin Chen, Yuejie Chi
- Abstract要約: 有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 51.476337785345436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline or batch reinforcement learning seeks to learn a near-optimal policy
using history data without active exploration of the environment. To counter
the insufficient coverage and sample scarcity of many offline datasets, the
principle of pessimism has been recently introduced to mitigate high bias of
the estimated values. While pessimistic variants of model-based algorithms
(e.g., value iteration with lower confidence bounds) have been theoretically
investigated, their model-free counterparts -- which do not require explicit
model estimation -- have not been adequately studied, especially in terms of
sample efficiency. To address this inadequacy, we study a pessimistic variant
of Q-learning in the context of finite-horizon Markov decision processes, and
characterize its sample complexity under the single-policy concentrability
assumption which does not require the full coverage of the state-action space.
In addition, a variance-reduced pessimistic Q-learning algorithm is proposed to
achieve near-optimal sample complexity. Altogether, this work highlights the
efficiency of model-free algorithms in offline RL when used in conjunction with
pessimism and variance reduction.
- Abstract(参考訳): オフラインもしくはバッチ強化学習は、環境を積極的に探索することなく、履歴データを用いてほぼ最適ポリシーを学習しようとする。
多くのオフラインデータセットのカバー不足とサンプル不足に対応するため、最近、推定値の高いバイアスを軽減するために悲観主義の原則が導入された。
モデルに基づくアルゴリズムの悲観的な変種(例えば、信頼性の低い値反復)は理論的に研究されているが、モデル無しなアルゴリズムは(明示的なモデル推定を必要としない)、特にサンプル効率の観点からは十分に研究されていない。
この問題に対処するために,有限ホリゾンマルコフ決定過程の文脈でq-ラーニングの悲観的変種を研究し,そのサンプル複雑性を,状態作用空間を完全にカバーする必要のない単一政治集中性仮定の下で特徴づける。
さらに, 差分再現型悲観的Q-ラーニングアルゴリズムを提案し, ほぼ最適サンプル複雑性を実現する。
この研究は、ペシミズムと分散還元と組み合わせて、オフラインRLにおけるモデルフリーアルゴリズムの効率性を強調している。
関連論文リスト
- Sample Complexity of Offline Distributionally Robust Linear Markov Decision Processes [37.15580574143281]
オフライン強化学習(RL)
本稿では、オフラインデータを用いた全変動距離を特徴とする不確実性を伴う分布安定線形マルコフ決定過程(MDP)のサンプル複雑性について考察する。
我々は悲観的なモデルに基づくアルゴリズムを開発し、最小限のデータカバレッジ仮定の下でそのサンプルの複雑さを確立する。
論文 参考訳(メタデータ) (2024-03-19T17:48:42Z) - Uncertainty-Aware Instance Reweighting for Off-Policy Learning [63.31923483172859]
本研究では,不確実性を考慮した逆確率スコア推定器 (UIPS) を提案する。
実世界の3つのレコメンデーションデータセットを用いた実験結果から,提案したUIPS推定器の有効サンプル効率が示された。
論文 参考訳(メタデータ) (2023-03-11T11:42:26Z) - Offline Reinforcement Learning with Instrumental Variables in Confounded
Markov Decision Processes [93.61202366677526]
未測定の共同設立者を対象にオフライン強化学習(RL)について検討した。
そこで本稿では, 最適クラスポリシーを見つけるための, 有限サンプルの準最適性を保証した多種多様なポリシー学習手法を提案する。
論文 参考訳(メタデータ) (2022-09-18T22:03:55Z) - Distributionally Robust Model-Based Offline Reinforcement Learning with
Near-Optimal Sample Complexity [39.886149789339335]
オフライン強化学習は、積極的に探索することなく、履歴データから意思決定を行うことを学習することを目的としている。
環境の不確実性や変動性から,デプロイされた環境が,ヒストリデータセットの収集に使用される名目上のものから逸脱した場合でも,良好に機能するロバストなポリシーを学ぶことが重要である。
オフラインRLの分布的ロバストな定式化を考察し、有限水平および無限水平の両方でクルバック・リーブラー発散によって指定された不確実性セットを持つロバストマルコフ決定過程に着目する。
論文 参考訳(メタデータ) (2022-08-11T11:55:31Z) - Model-based Offline Imitation Learning with Non-expert Data [7.615595533111191]
本稿では,最適条件と最適条件の両方で収集されたデータセットを活用する,スケーラブルなモデルベースオフライン模倣学習アルゴリズムフレームワークを提案する。
提案手法は, シミュレーションされた連続制御領域上での低データ構造における振舞いクローンよりも優れることを示す。
論文 参考訳(メタデータ) (2022-06-11T13:08:08Z) - The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。
このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。
我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2022-03-14T17:59:01Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。