論文の概要: The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation
- arxiv url: http://arxiv.org/abs/2109.13419v1
- Date: Tue, 28 Sep 2021 01:20:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:53:58.324271
- Title: The Role of Lookahead and Approximate Policy Evaluation in Policy
Iteration with Linear Value Function Approximation
- Title(参考訳): 線形値関数近似による政策反復におけるルックヘッドと近似政策評価の役割
- Authors: Anna Winnicki, Joseph Lubars, Michael Livesay, R. Srikant
- Abstract要約: 線形関数近似を用いて値関数を表現する場合、最小限のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、そのような近似ポリシーを用いて得られたポリシーの有限時間性能を特徴付ける。
- 参考スコア(独自算出の注目度): 14.528756508275622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When the sizes of the state and action spaces are large, solving MDPs can be
computationally prohibitive even if the probability transition matrix is known.
So in practice, a number of techniques are used to approximately solve the
dynamic programming problem, including lookahead, approximate policy evaluation
using an m-step return, and function approximation. In a recent paper, (Efroni
et al. 2019) studied the impact of lookahead on the convergence rate of
approximate dynamic programming. In this paper, we show that these convergence
results change dramatically when function approximation is used in conjunction
with lookout and approximate policy evaluation using an m-step return.
Specifically, we show that when linear function approximation is used to
represent the value function, a certain minimum amount of lookahead and
multi-step return is needed for the algorithm to even converge. And when this
condition is met, we characterize the finite-time performance of policies
obtained using such approximate policy iteration. Our results are presented for
two different procedures to compute the function approximation: linear
least-squares regression and gradient descent.
- Abstract(参考訳): 状態と作用空間の大きさが大きい場合、mdpの解法は確率遷移行列が知られているとしても計算的に禁止される。
したがって、実際、ルックアヘッド、mステップの戻り値を用いた近似ポリシー評価、関数近似など、動的プログラミング問題を概ね解くために、多くの技術が使用されている。
最近の論文 (Efroni et al. 2019) では、ルックアヘッドが近似動的プログラミングの収束率に与える影響について研究している。
本稿では,mステップリターンを用いたルックアウトおよび近似ポリシー評価と連動して関数近似を用いた場合,これらの収束結果が劇的に変化することを示す。
具体的には、線形関数近似を用いて値関数を表現する場合、アルゴリズムが収束するために必要な最小のルックアヘッドとマルチステップリターンが必要であることを示す。
そして、この条件が満たされると、この近似ポリシー反復を用いて得られたポリシーの有限時間性能を特徴付ける。
関数近似を計算するために, 線形最小二乗回帰と勾配降下という2つの異なる手順が提案されている。
関連論文リスト
- Confident Natural Policy Gradient for Local Planning in $q_π$-realizable Constrained MDPs [44.69257217086967]
制約付きマルコフ決定プロセス(CMDP)フレームワークは、安全性や他の重要な目的を課すための重要な強化学習アプローチとして出現する。
本稿では,線形関数近似が$q_pi$-realizabilityで与えられる学習問題に対処する。
論文 参考訳(メタデータ) (2024-06-26T17:57:13Z) - High-probability sample complexities for policy evaluation with linear function approximation [88.87036653258977]
本研究では,2つの広く利用されている政策評価アルゴリズムに対して,最適線形係数の予め定義された推定誤差を保証するために必要なサンプル複素量について検討する。
高確率収束保証に縛られた最初のサンプル複雑性を確立し、許容レベルへの最適依存を実現する。
論文 参考訳(メタデータ) (2023-05-30T12:58:39Z) - Policy Gradient and Actor-Critic Learning in Continuous Time and Space:
Theory and Algorithms [1.776746672434207]
連続時間と空間における強化学習のための政策勾配(PG)について検討する。
本稿では,RLに対するアクタ批判アルゴリズムの2つのタイプを提案し,同時に値関数とポリシーを学習し,更新する。
論文 参考訳(メタデータ) (2021-11-22T14:27:04Z) - Variance-Aware Off-Policy Evaluation with Linear Function Approximation [85.75516599931632]
線形関数近似を用いた強化学習における非政治的評価問題について検討する。
本稿では,値関数の分散を推定し,フィルタQ-Iterationにおけるベルマン残差を再重み付けするアルゴリズムVA-OPEを提案する。
論文 参考訳(メタデータ) (2021-06-22T17:58:46Z) - Provably Correct Optimization and Exploration with Non-linear Policies [65.60853260886516]
ENIACは、批評家の非線形関数近似を可能にするアクター批判手法である。
特定の仮定の下では、学習者は$o(poly(d))$の探索ラウンドで最適に近い方針を見つける。
我々は,この適応を経験的に評価し,線形手法に触発された前処理よりも優れることを示す。
論文 参考訳(メタデータ) (2021-03-22T03:16:33Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Piecewise Linear Regression via a Difference of Convex Functions [50.89452535187813]
本稿では,データに対する凸関数(DC関数)の差を利用した線形回帰手法を提案する。
実際に実装可能であることを示すとともに,実世界のデータセット上で既存の回帰/分類手法に匹敵する性能を有することを実証的に検証した。
論文 参考訳(メタデータ) (2020-07-05T18:58:47Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Adaptive Approximate Policy Iteration [22.915651391812187]
均一なエルゴディックMDPの学習を継続する学習方法として,$tildeO(T2/3)$ regret bound for undiscounted, continuing learning in uniformly ergodic MDPを提案する。
これは、関数近似を持つ平均逆ケースに対する$tildeO(T3/4)$の最良の既存の境界よりも改善されている。
論文 参考訳(メタデータ) (2020-02-08T02:27:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。