論文の概要: Efficient Local Planning with Linear Function Approximation
- arxiv url: http://arxiv.org/abs/2108.05533v1
- Date: Thu, 12 Aug 2021 04:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-14 01:30:15.739985
- Title: Efficient Local Planning with Linear Function Approximation
- Title(参考訳): 線形関数近似を用いた効率的局所計画法
- Authors: Dong Yin, Botao Hao, Yasin Abbasi-Yadkori, Nevena Lazi\'{c}, Csaba
Szepesv\'{a}ri
- Abstract要約: 線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。
本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。
我々の研究の技術的貢献の1つは、仮想ポリシーアルゴリズムを利用した新しい証明手法の導入である。
- 参考スコア(独自算出の注目度): 27.90696655434707
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study query and computationally efficient planning algorithms with linear
function approximation and a simulator. We assume that the agent only has local
access to the simulator, meaning that the agent can only query the simulator at
states that have been visited before. This setting is more practical than many
prior works on reinforcement learning with a generative model. We propose an
algorithm named confident Monte Carlo least square policy iteration (Confident
MC-LSPI) for this setting. Under the assumption that the Q-functions of all
deterministic policies are linear in known features of the state-action pairs,
we show that our algorithm has polynomial query and computational complexities
in the dimension of the features, the effective planning horizon and the
targeted sub-optimality, while these complexities are independent of the size
of the state space. One technical contribution of our work is the introduction
of a novel proof technique that makes use of a virtual policy iteration
algorithm. We use this method to leverage existing results on
$\ell_\infty$-bounded approximate policy iteration to show that our algorithm
can learn the optimal policy for the given initial state even only with local
access to the simulator. We believe that this technique can be extended to
broader settings beyond this work.
- Abstract(参考訳): 線形関数近似とシミュレータを用いたクエリと計算効率のよい計画アルゴリズムについて検討する。
エージェントはシミュレーターへのローカルアクセスのみを持っていると仮定し、エージェントは以前訪問した状態のシミュレーターにのみ問い合わせることができる。
この設定は、生成モデルによる強化学習に関する多くの先行研究よりも実用的である。
本稿では,モンテカルロ最小二乗政策反復(MC-LSPI)というアルゴリズムを提案する。
全ての決定論的ポリシーのQ-関数が、状態-作用ペアの既知の特徴において線形であるという仮定の下で、我々のアルゴリズムは、状態空間のサイズによらず、特徴の次元、効率的な計画的地平線、対象の準最適性において多項式的クエリと計算的複雑度を有することを示す。
我々の研究の技術的貢献の1つは、仮想ポリシー反復アルゴリズムを利用した新しい証明手法の導入である。
この手法は,シミュレータにローカルアクセスした場合のみ,与えられた初期状態に対する最適ポリシーをアルゴリズムが学習可能であることを示すために,$\ell_\infty$-bounded approximate policy iteration に既存の結果を利用する。
このテクニックは、この作業を超えて広範な設定にまで拡張できると考えています。
関連論文リスト
- The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z) - Offline Imitation Learning from Multiple Baselines with Applications to Compiler Optimization [17.729842629392742]
我々は,Kベースラインポリシーで収集した一連のトラジェクトリを与えられる強化学習問題について検討する。
目標は、状態空間全体におけるベースラインの最高の組み合わせと同様に、機能するポリシーを学ぶことです。
論文 参考訳(メタデータ) (2024-03-28T14:34:02Z) - Stabilizing Q-learning with Linear Architectures for Provably Efficient
Learning [53.17258888552998]
本研究では,線形関数近似を用いた基本的な$Q$-learningプロトコルの探索変種を提案する。
このアルゴリズムの性能は,新しい近似誤差というより寛容な概念の下で,非常に優雅に低下することを示す。
論文 参考訳(メタデータ) (2022-06-01T23:26:51Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Implicitly Regularized RL with Implicit Q-Values [42.87920755961722]
Q$関数は多くの強化学習(RL)アルゴリズムにおいて中心的な量であり、RLエージェントは(ソフト)グレーディポリシーに従って振る舞う。
対数政治と値関数の和として、暗黙的に$Q$-関数をパラメータ化することを提案する。
我々は,大規模アクション空間に適した実用的な非政治的深部RLアルゴリズムを導出し,ポリシーと$Q$値とのソフトマックス関係を強制する。
論文 参考訳(メタデータ) (2021-08-16T12:20:47Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Improved Regret Bound and Experience Replay in Regularized Policy
Iteration [22.621710838468097]
無限ホライゾンマルコフ決定過程(mdps)における学習アルゴリズムを関数近似を用いて検討する。
まず、ほぼ同一の仮定の下で、Politexアルゴリズムの後悔解析を$O(T3/4)$から$O(sqrtT)$にシャープできることを示す。
その結果、計算効率の良いアルゴリズムに対して、最初の高い確率の$o(sqrtt)$ regretバウンドが得られる。
論文 参考訳(メタデータ) (2021-02-25T00:55:07Z) - On Query-efficient Planning in MDPs under Linear Realizability of the
Optimal State-value Function [14.205660708980988]
固定水平マルコフ決定過程(MDP)における局所的計画の問題点を生成モデルを用いて考察する。
最近の下界は、最適ポリシーの作用値関数が線形に実現可能である場合の関連する問題は指数的なクエリ数を必要とすることを証明している。
本研究では,アクションセットが小さい場合,ポリ$(H, d)$学習が(状態値関数の実現可能性を持つ)可能であることを確かめる。
論文 参考訳(メタデータ) (2021-02-03T13:23:15Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Provably Efficient Safe Exploration via Primal-Dual Policy Optimization [105.7510838453122]
制約付きマルコフ決定過程(CMDP)を用いた安全強化学習(SRL)問題について検討する。
本稿では,関数近似設定において,安全な探索を行うCMDPの効率の良いオンラインポリシー最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-03-01T17:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。