論文の概要: Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions
- arxiv url: http://arxiv.org/abs/2406.11640v2
- Date: Tue, 18 Jun 2024 04:27:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 11:41:25.385797
- Title: Linear Bellman Completeness Suffices for Efficient Online Reinforcement Learning with Few Actions
- Title(参考訳): 効果的なオンライン強化学習のための線形ベルマン完全性
- Authors: Noah Golowich, Ankur Moitra,
- Abstract要約: ベルマンが成り立つと仮定し、これらの回帰問題が十分に特定されていることを保証している。
数作用が定数であるとき、線形ベルマンの下でRLの最初の特別なアルゴリズムを与える。
- 参考スコア(独自算出の注目度): 29.69428894587431
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the most natural approaches to reinforcement learning (RL) with function approximation is value iteration, which inductively generates approximations to the optimal value function by solving a sequence of regression problems. To ensure the success of value iteration, it is typically assumed that Bellman completeness holds, which ensures that these regression problems are well-specified. We study the problem of learning an optimal policy under Bellman completeness in the online model of RL with linear function approximation. In the linear setting, while statistically efficient algorithms are known under Bellman completeness (e.g., Jiang et al. (2017); Zanette et al. (2020)), these algorithms all rely on the principle of global optimism which requires solving a nonconvex optimization problem. In particular, it has remained open as to whether computationally efficient algorithms exist. In this paper we give the first polynomial-time algorithm for RL under linear Bellman completeness when the number of actions is any constant.
- Abstract(参考訳): 関数近似を用いた強化学習(RL)における最も自然なアプローチの1つは値反復であり、一連の回帰問題を解くことにより、最適値関数への近似を誘導的に生成する。
値反復の成功を保証するため、一般にベルマン完全性は成り立つと仮定され、これらの回帰問題が十分に特定されることが保証される。
本稿では,線形関数近似を用いたオンラインRLモデルにおいて,ベルマン完全性の下で最適ポリシーを学習する問題について検討する。
線形設定では、統計的に効率的なアルゴリズムはベルマン完全性(2017年、Zanette et al (2020年))の下で知られているが、これらのアルゴリズムはすべて、非凸最適化問題の解法を必要とする大域的楽観主義の原理に依存している。
特に、計算効率の良いアルゴリズムが存在するかどうかについては未定のままである。
本稿では,線形ベルマン完全性の下でのRLに対する最初の多項式時間アルゴリズムについて述べる。
関連論文リスト
- Computationally Efficient RL under Linear Bellman Completeness for Deterministic Dynamics [39.07258580928359]
線形ベルマン完全設定に対する計算的および統計的に効率的な強化学習アルゴリズムについて検討する。
この設定では線形関数近似を用いて値関数をキャプチャし、線形マルコフ決定プロセス(MDP)や線形二次レギュレータ(LQR)のような既存のモデルを統一する。
我々の研究は、線形ベルマン完全設定のための計算効率の良いアルゴリズムを提供し、大きなアクション空間、ランダムな初期状態、ランダムな報酬を持つMDPに対して機能するが、決定論的となる基礎となる力学に依存している。
論文 参考訳(メタデータ) (2024-06-17T17:52:38Z) - The Role of Inherent Bellman Error in Offline Reinforcement Learning with Linear Function Approximation [29.69428894587431]
本稿では,線形関数近似を用いたオフラインRL問題について検討する。
我々の構造的前提は、MDPはベルマン誤差が低いということである。
我々は、$sqrtvarepsilon_mathrmBE$によるサブ最適性のスケーリングは、どんなアルゴリズムでも改善できないことを示した。
論文 参考訳(メタデータ) (2024-06-17T16:04:06Z) - Regularized Q-Learning with Linear Function Approximation [2.765106384328772]
線形汎関数近似を用いた正規化Q-ラーニングの2段階最適化について検討する。
特定の仮定の下では、提案アルゴリズムはマルコフ雑音の存在下で定常点に収束することを示す。
論文 参考訳(メタデータ) (2024-01-26T20:45:40Z) - Parameterized Projected Bellman Operator [64.129598593852]
近似値反復(英: Approximate value iteration, AVI)は、強化学習(RL)のためのアルゴリズムの一群である。
本稿ではベルマン作用素の近似版を学習する新しい代替手法を提案する。
逐次決定問題に対するPBO学習のための最適化問題を定式化する。
論文 参考訳(メタデータ) (2023-12-20T09:33:16Z) - Pessimistic Nonlinear Least-Squares Value Iteration for Offline Reinforcement Learning [53.97335841137496]
非線形関数近似を用いたオフラインRLにおけるPNLSVI(Pessimistic Least-Square Value Iteration)と呼ばれるオラクル効率のアルゴリズムを提案する。
本アルゴリズムは,関数クラスの複雑性に強く依存する後悔境界を享受し,線形関数近似に特化して最小限のインスタンス依存後悔を実現する。
論文 参考訳(メタデータ) (2023-10-02T17:42:01Z) - Nearly Minimax Optimal Reinforcement Learning for Linear Markov Decision
Processes [80.89852729380425]
そこで本研究では,最小限の最小残差である$tilde O(dsqrtH3K)$を計算効率よく実現したアルゴリズムを提案する。
我々の研究は線形 MDP を用いた最適 RL に対する完全な答えを提供する。
論文 参考訳(メタデータ) (2022-12-12T18:58:59Z) - You Only Evaluate Once: a Simple Baseline Algorithm for Offline RL [29.98260009732724]
政策評価のステップを一度だけ行うオフライン強化学習のためのベースラインアルゴリズムを提案する。
提案アルゴリズムは、D4RLオフラインRLベンチマークのサブセットにおいて、競合的かつ時折最先端のパフォーマンスを示すことを実証的に見出した。
論文 参考訳(メタデータ) (2021-10-05T19:05:47Z) - A Generalized Projected Bellman Error for Off-policy Value Estimation in Reinforcement Learning [25.39784277231972]
線形 MSPBE を非線形設定に拡張する一般化 MSPBE を導入する。
我々は、一般化された目的を最小化するために、使いやすいが、音のアルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-04-28T15:50:34Z) - Recent Theoretical Advances in Non-Convex Optimization [56.88981258425256]
近年、深層ネットワークにおける非最適化アルゴリズムの解析やデータ問題への関心が高まっており、非最適化のための理論的最適化アルゴリズムの最近の結果の概要を概説する。
論文 参考訳(メタデータ) (2020-12-11T08:28:51Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。