論文の概要: Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets
- arxiv url: http://arxiv.org/abs/2202.07511v1
- Date: Tue, 15 Feb 2022 15:39:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-16 14:23:05.301595
- Title: Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets
- Title(参考訳): 悲観的ミニマックス値反復:オフラインデータセットからの効率的な平衡学習
- Authors: Han Zhong, Wei Xiong, Jiyuan Tan, Liwei Wang, Tong Zhang, Zhaoran
Wang, Zhuoran Yang
- Abstract要約: 両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
- 参考スコア(独自算出の注目度): 101.5329678997916
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study episodic two-player zero-sum Markov games (MGs) in the offline
setting, where the goal is to find an approximate Nash equilibrium (NE) policy
pair based on a dataset collected a priori. When the dataset does not have
uniform coverage over all policy pairs, finding an approximate NE involves
challenges in three aspects: (i) distributional shift between the behavior
policy and the optimal policy, (ii) function approximation to handle large
state space, and (iii) minimax optimization for equilibrium solving. We propose
a pessimism-based algorithm, dubbed as pessimistic minimax value iteration
(PMVI), which overcomes the distributional shift by constructing pessimistic
estimates of the value functions for both players and outputs a policy pair by
solving NEs based on the two value functions. Furthermore, we establish a
data-dependent upper bound on the suboptimality which recovers a sublinear rate
without the assumption on uniform coverage of the dataset. We also prove an
information-theoretical lower bound, which suggests that the data-dependent
term in the upper bound is intrinsic. Our theoretical results also highlight a
notion of "relative uncertainty", which characterizes the necessary and
sufficient condition for achieving sample efficiency in offline MGs. To the
best of our knowledge, we provide the first nearly minimax optimal result for
offline MGs with function approximation.
- Abstract(参考訳): オフライン環境での2人プレイヤゼロサムマルコフゲーム (MG) について検討し, 予め収集したデータセットに基づいて, 近似的なナッシュ均衡 (NE) ポリシーペアを見つけることを目標とした。
データセットがすべてのポリシペアに対して均一なカバレッジを持っていない場合、近似NEを見つけるには、3つの側面がある。
(i)行動政策と最適政策の分布変化
(ii)大きな状態空間を扱うための関数近似、
(iii)平衡解のためのミニマックス最適化。
本研究では,両プレイヤーの値関数の悲観的推定を行い,2つの値関数に基づいてnesを解いてポリシーペアを出力する,悲観的最小値反復(pmvi)と呼ばれる悲観的最小値反復法を提案する。
さらに、データセットの均一なカバレッジを前提にせず、サブリニアレートを回復するサブオプティリティ上のデータ依存上界を確立する。
また,情報理論上の下限を証明し,上界のデータ依存項が本質的であることを示唆する。
また, オフラインmgsにおいて試料効率を達成するための必要十分条件を特徴付ける「相対的不確かさ」の概念も強調した。
我々の知る限り、関数近似を持つオフラインMGに対して、最初の最小限の最適結果を提供する。
関連論文リスト
- Bi-Level Offline Policy Optimization with Limited Exploration [1.8130068086063336]
我々は、固定された事前コンパイルされたデータセットに基づいて良いポリシーを学習しようとするオフライン強化学習(RL)について研究する。
ポリシー(上層)と値関数(下層)の階層的相互作用をモデル化する2レベル構造化ポリシー最適化アルゴリズムを提案する。
我々は、オフラインRLのための合成、ベンチマーク、実世界のデータセットを混合して評価し、最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2023-10-10T02:45:50Z) - Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Importance Weighted Actor-Critic for Optimal Conservative Offline
Reinforcement Learning [23.222448307481073]
データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しい実践的アルゴリズムを提案する。
本アルゴリズムは,重要度抽出フレームワークとアクター批判パラダイムを併用する。
提案アルゴリズムの有効性を検証するため,理論的解析と実験結果の両方を提供する。
論文 参考訳(メタデータ) (2023-01-30T07:53:53Z) - The Role of Baselines in Policy Gradient Optimization [83.42050606055822]
Emphstateのバリューベースラインが、オン・ポリティクスを可能にしていることを示す。
世界的な最適な政策勾配(NPG)に収束する。
O (1/t) レート勾配でのポリシー。
値ベースラインの主な効果は、その分散ではなく、更新のアグレッシブさをthabfreduceすることにある。
論文 参考訳(メタデータ) (2023-01-16T06:28:00Z) - Policy learning "without" overlap: Pessimism and generalized empirical Bernstein's inequality [94.89246810243053]
本論文は,事前収集した観測値を利用して最適な個別化決定規則を学習するオフライン政策学習について検討する。
既存の政策学習法は、一様重なりの仮定、すなわち、全ての個々の特性に対する全ての作用を探索する正当性は、境界を低くしなければならない。
我々は,点推定の代わりに低信頼度境界(LCB)を最適化する新しいアルゴリズムであるPPLを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - Pessimistic Q-Learning for Offline Reinforcement Learning: Towards
Optimal Sample Complexity [51.476337785345436]
有限水平マルコフ決定過程の文脈におけるQ-ラーニングの悲観的変種について検討する。
ほぼ最適サンプル複雑性を実現するために,分散再現型悲観的Q-ラーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-28T15:39:36Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。