論文の概要: Nearly Minimax Optimal Offline Reinforcement Learning with Linear
Function Approximation: Single-Agent MDP and Markov Game
- arxiv url: http://arxiv.org/abs/2205.15512v1
- Date: Tue, 31 May 2022 02:50:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:21:50.522887
- Title: Nearly Minimax Optimal Offline Reinforcement Learning with Linear
Function Approximation: Single-Agent MDP and Markov Game
- Title(参考訳): 線形関数近似を用いた最小最小オフライン強化学習 : 単一エージェントmdpとマルコフゲーム
- Authors: Wei Xiong, Han Zhong, Chengshuai Shi, Cong Shen, Liwei Wang, Tong
Zhang
- Abstract要約: オフライン強化学習(RL)は、環境とのさらなる相互作用を伴わずに、事前コンパイルされたデータセットを使用して最適な戦略を学ぶことを目的としている。
オフライン単一エージェントMDPと2プレーヤゼロサムマルコフゲーム(MG)のための2つの新しいアルゴリズムを提案する。
我々の知る限り、これらは線形関数近似を用いたオフライン単エージェントMDPとMGのための計算効率が良く、最小に近い最適化アルゴリズムである。
- 参考スコア(独自算出の注目度): 34.69723238900705
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) aims at learning an optimal strategy
using a pre-collected dataset without further interactions with the
environment. While various algorithms have been proposed for offline RL in the
previous literature, the minimax optimal performance has only been (nearly)
achieved for tabular Markov decision processes (MDPs). In this paper, we focus
on offline RL with linear function approximation and propose two new
algorithms, SPEVI+ and SPMVI+, for single-agent MDPs and two-player zero-sum
Markov games (MGs), respectively. The proposed algorithms feature carefully
crafted data splitting mechanisms and novel variance-reduction pessimistic
estimators. Theoretical analysis demonstrates that they are capable of matching
the performance lower bounds up to logarithmic factors. As a byproduct, a new
performance lower bound is established for MGs, which tightens the existing
results. To the best of our knowledge, these are the first computationally
efficient and nearly minimax optimal algorithms for offline single-agent MDPs
and MGs with linear function approximation.
- Abstract(参考訳): オフライン強化学習(RL)は、環境とのさらなる相互作用を伴わずに、事前に収集したデータセットを用いて最適な戦略を学ぶことを目的としている。
従来の文献ではオフラインRLに対して様々なアルゴリズムが提案されているが、最小値の最適性能は(ほぼ)表形式マルコフ決定プロセス(MDP)に対してのみ達成されている。
本稿では,線形関数近似を用いたオフラインRLに着目し,SPEVI+とSPMVI+の2つの新しいアルゴリズムを提案する。
提案アルゴリズムは、データ分割機構と新しい分散還元悲観的推定器を慎重に構築する。
理論的解析は、対数的要因までの性能の低い境界をマッチングできることを示した。
副産物として、MGに対して新しいパフォーマンスローバウンドが確立され、既存の結果を締め付ける。
我々の知る限り、これらは線形関数近似を用いたオフライン単エージェントMDPとMGのための計算効率が良く、最小に近いアルゴリズムである。
関連論文リスト
- A Learned Proximal Alternating Minimization Algorithm and Its Induced Network for a Class of Two-block Nonconvex and Nonsmooth Optimization [4.975853671529418]
本研究では,学習可能な2ブロック非平滑問題の解法として,一般学習型交互最小化アルゴリズムLPAMを提案する。
提案するLPAM-netはパラメータ効率が高く,いくつかの最先端手法と比較して良好な性能を示す。
論文 参考訳(メタデータ) (2024-11-10T02:02:32Z) - Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。
我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。
実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文 参考訳(メタデータ) (2024-06-12T16:58:41Z) - Spectral Entry-wise Matrix Estimation for Low-Rank Reinforcement
Learning [53.445068584013896]
低ランク構造を持つ強化学習(RL)における行列推定問題について検討した。
低ランク帯では、回収される行列は期待される腕の報酬を指定し、低ランクマルコフ決定プロセス(MDP)では、例えばMDPの遷移カーネルを特徴付ける。
簡単なスペクトルベースの行列推定手法は,行列の特異部分空間を効率よく復元し,ほぼ最小の入力誤差を示すことを示す。
論文 参考訳(メタデータ) (2023-10-10T17:06:41Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - Regularization and Variance-Weighted Regression Achieves Minimax
Optimality in Linear MDPs: Theory and Practice [79.48432795639403]
ミラー降下値反復(MDVI)は、KL(Kulback-Leibler)とRL(Entropy-regularized reinforcement learning)の抽象化である。
MDVIを線形関数近似を用いて研究し,$varepsilon$-optimal policyを同定するために必要なサンプル複雑性について検討した。
我々は,無限水平線形MDPに対して,最小限のサンプル複雑性を実現する最初の理論的アルゴリズムである分散重み付き最小二乗法MDVIを提案する。
論文 参考訳(メタデータ) (2023-05-22T16:13:05Z) - Offline Primal-Dual Reinforcement Learning for Linear MDPs [16.782625445546273]
オフライン強化学習(RL)は、他のポリシによって収集されたトランジションの固定データセットから、ほぼ最適なポリシを学ぶことを目的としている。
本稿では,RLの線形プログラミング定式化に基づく原始双対最適化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T11:45:23Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - Pessimistic Minimax Value Iteration: Provably Efficient Equilibrium
Learning from Offline Datasets [101.5329678997916]
両プレイヤーゼロサムマルコフゲーム(MG)をオフライン環境で研究する。
目標は、事前収集されたデータセットに基づいて、近似的なナッシュ均衡(NE)ポリシーペアを見つけることである。
論文 参考訳(メタデータ) (2022-02-15T15:39:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。