論文の概要: Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation
- arxiv url: http://arxiv.org/abs/2210.07338v1
- Date: Thu, 13 Oct 2022 20:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 18:22:47.606087
- Title: Reinforcement Learning with Unbiased Policy Evaluation and Linear
Function Approximation
- Title(参考訳): 曖昧な政策評価と線形関数近似を用いた強化学習
- Authors: Anna Winnicki, R. Srikant
- Abstract要約: マルコフ決定プロセスを制御するためのシミュレーションベースのポリシーイテレーションの変種に対して,性能保証を提供する。
第一のアルゴリズムは最小二乗アプローチを伴い、各反復において、特徴ベクトルに関連する新しい重みの集合が少なくとも二乗によって得られる。
第2のアルゴリズムは、最小二乗解への勾配降下を数ステップ行う2段階の近似アルゴリズムを含む。
- 参考スコア(独自算出の注目度): 11.345796608258434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide performance guarantees for a variant of simulation-based policy
iteration for controlling Markov decision processes that involves the use of
stochastic approximation algorithms along with state-of-the-art techniques that
are useful for very large MDPs, including lookahead, function approximation,
and gradient descent. Specifically, we analyze two algorithms; the first
algorithm involves a least squares approach where a new set of weights
associated with feature vectors is obtained via least squares minimization at
each iteration and the second algorithm involves a two-time-scale stochastic
approximation algorithm taking several steps of gradient descent towards the
least squares solution before obtaining the next iterate using a stochastic
approximation algorithm.
- Abstract(参考訳): 我々は,マルコフ決定過程を制御するためのシミュレーションベースポリシイテレーションの変種に対して,解析的近似アルゴリズムと,ルックアヘッド,関数近似,勾配降下など,非常に大きなmdpに有用な最先端技術を用いた性能保証を提供する。
具体的には、2つのアルゴリズムを解析し、第1のアルゴリズムは特徴ベクトルに関連する新しい重みの組が各イテレーションで最小二乗最小化によって得られる最小二乗法と、第2のアルゴリズムは、確率近似アルゴリズムを用いて次のイテレートを得る前に、最小二乗法に向けて数ステップの勾配降下を行う2回スケールの確率近似アルゴリズムを含む。
関連論文リスト
- Trust-Region Sequential Quadratic Programming for Stochastic Optimization with Random Models [57.52124921268249]
本稿では,1次と2次の両方の定常点を見つけるための信頼逐次準計画法を提案する。
本手法は, 1次定常点に収束するため, 対象対象の近似を最小化して定義された各イテレーションの勾配ステップを計算する。
2階定常点に収束するため,本手法は負曲率を減少するヘッセン行列を探索する固有ステップも計算する。
論文 参考訳(メタデータ) (2024-09-24T04:39:47Z) - Deterministic Trajectory Optimization through Probabilistic Optimal Control [3.2771631221674333]
離散時間決定論的有限水平非線形最適制御問題に対する2つの新しいアルゴリズムを提案する。
どちらのアルゴリズムも確率論的最適制御として知られる新しい理論パラダイムにインスパイアされている。
このアルゴリズムの適用により、決定論的最適ポリシーに収束する確率的ポリシーの定点が得られることを示す。
論文 参考訳(メタデータ) (2024-07-18T09:17:47Z) - Variance reduction techniques for stochastic proximal point algorithms [5.374800961359305]
そこで本研究では,近点アルゴリズムにおける分散低減手法の統一化研究を提案する。
我々は,SVRG,SAGA,およびそれらの変種の近位バージョンを提供するために特定可能な,汎用的近位アルゴリズムを提案する。
本実験は, 勾配法よりも近似分散還元法の利点を実証する。
論文 参考訳(メタデータ) (2023-08-18T05:11:50Z) - Accelerating Cutting-Plane Algorithms via Reinforcement Learning
Surrogates [49.84541884653309]
凸離散最適化問題に対する現在の標準的なアプローチは、カットプレーンアルゴリズムを使うことである。
多くの汎用カット生成アルゴリズムが存在するにもかかわらず、大規模な離散最適化問題は、難易度に悩まされ続けている。
そこで本研究では,強化学習による切削平面アルゴリズムの高速化手法を提案する。
論文 参考訳(メタデータ) (2023-07-17T20:11:56Z) - Lower Bounds and Optimal Algorithms for Smooth and Strongly Convex
Decentralized Optimization Over Time-Varying Networks [79.16773494166644]
通信ネットワークのノード間を分散的に保存するスムーズで強い凸関数の和を最小化するタスクについて検討する。
我々は、これらの下位境界を達成するための2つの最適アルゴリズムを設計する。
我々は,既存の最先端手法と実験的な比較を行うことにより,これらのアルゴリズムの理論的効率を裏付ける。
論文 参考訳(メタデータ) (2021-06-08T15:54:44Z) - Average-Reward Off-Policy Policy Evaluation with Function Approximation [66.67075551933438]
平均報酬MDPの関数近似によるオフポリシ政策評価を検討する。
ブートストラップは必要であり、オフポリシ学習とFAと一緒に、致命的なトライアドをもたらす。
そこで本研究では,勾配型tdアルゴリズムの成功を再現する2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-08T00:43:04Z) - Smoothed functional-based gradient algorithms for off-policy reinforcement learning: A non-asymptotic viewpoint [8.087699764574788]
政治外の強化学習コンテキストにおける制御問題の解法として,2つのポリシー勾配アルゴリズムを提案する。
どちらのアルゴリズムも、スムーズな関数的勾配推定スキームを取り入れている。
論文 参考訳(メタデータ) (2021-01-06T17:06:42Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Differentially Private Accelerated Optimization Algorithms [0.7874708385247353]
微分プライベート最適化アルゴリズムの2つのクラスを示す。
最初のアルゴリズムはPolyakのヘビーボール法にインスパイアされている。
アルゴリズムの第2のクラスは、ネステロフの加速勾配法に基づいている。
論文 参考訳(メタデータ) (2020-08-05T08:23:01Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Finite-sample Analysis of Greedy-GQ with Linear Function Approximation
under Markovian Noise [23.62008807533706]
本稿では,Greedy-GQアルゴリズムの最初の有限サンプル解析法を提案する。
本稿では,2つの時間スケール強化学習アルゴリズムの有限サンプル解析を拡張した。
論文 参考訳(メタデータ) (2020-05-20T16:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。