論文の概要: On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts
- arxiv url: http://arxiv.org/abs/2007.10916v1
- Date: Tue, 21 Jul 2020 16:19:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 05:42:09.715319
- Title: On the Convergence of Reinforcement Learning with Monte Carlo Exploring
Starts
- Title(参考訳): モンテカルロ探索開始による強化学習の収束について
- Authors: Jun Liu
- Abstract要約: 基本的なシミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索州 (MCES) 法である。
最短経路問題としても知られる未計算コストの場合のこのアルゴリズムの収束性について検討する。
副作用として、近似によく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
- 参考スコア(独自算出の注目度): 5.137144629366217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A basic simulation-based reinforcement learning algorithm is the Monte Carlo
Exploring States (MCES) method, also known as optimistic policy iteration, in
which the value function is approximated by simulated returns and a greedy
policy is selected at each iteration. The convergence of this algorithm in the
general setting has been an open question. In this paper, we investigate the
convergence of this algorithm for the case with undiscounted costs, also known
as the stochastic shortest path problem. The results complement existing
partial results on this topic and thereby helps further settle the open
problem. As a side result, we also provide a proof of a version of the
supermartingale convergence theorem commonly used in stochastic approximation.
- Abstract(参考訳): シミュレーションに基づく強化学習アルゴリズムはモンテカルロ探索法(montal carlo exploration states, mces)法であり、これは楽観的政策反復としても知られ、値関数はシミュレーションされた帰納法によって近似され、各イテレーションで欲張りな方針が選択される。
一般設定におけるこのアルゴリズムの収束はオープンな問題である。
本稿では, 確率的最短経路問題としても知られる, 未計算コストのケースに対するアルゴリズムの収束性について検討する。
この結果は、既存の部分的な結果を補完し、オープンな問題を解決するのに役立つ。
副作用として、確率近似でよく用いられるスーパーマリンゲール収束定理のバージョンの証明も提供する。
関連論文リスト
- Finite-Sample Analysis of the Monte Carlo Exploring Starts Algorithm for Reinforcement Learning [0.0]
政策アルゴリズムの収束率に関する新しい結果を示す。
このアルゴリズムは、$tildeO(SAK3log3frac1delta)$ sampled episodesの後に最適なポリシーを返す。
論文 参考訳(メタデータ) (2024-10-03T21:11:29Z) - Automatic Rao-Blackwellization for Sequential Monte Carlo with Belief
Propagation [4.956977275061968]
状態空間モデル(SSM)に関する具体的なベイズ予想は、一般には難解である。
本稿では,信念の伝播を用いた閉形式解を可能な限り計算する混合推論アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-15T15:05:25Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - Parallel Stochastic Mirror Descent for MDPs [72.75921150912556]
無限水平マルコフ決定過程(MDP)における最適政策学習の問題を考える。
リプシッツ連続関数を用いた凸プログラミング問題に対してミラー・ディクセントの変種が提案されている。
このアルゴリズムを一般の場合において解析し,提案手法の動作中に誤差を蓄積しない収束率の推定値を得る。
論文 参考訳(メタデータ) (2021-02-27T19:28:39Z) - Plug-And-Play Learned Gaussian-mixture Approximate Message Passing [71.74028918819046]
そこで本研究では,従来のi.i.d.ソースに適した圧縮圧縮センシング(CS)リカバリアルゴリズムを提案する。
我々のアルゴリズムは、Borgerdingの学習AMP(LAMP)に基づいて構築されるが、アルゴリズムに普遍的な復調関数を採用することにより、それを大幅に改善する。
数値評価により,L-GM-AMPアルゴリズムは事前の知識を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T16:40:45Z) - Pathwise Conditioning of Gaussian Processes [72.61885354624604]
ガウス過程後部をシミュレーションするための従来のアプローチでは、有限個の入力位置のプロセス値の限界分布からサンプルを抽出する。
この分布中心の特徴づけは、所望のランダムベクトルのサイズで3次スケールする生成戦略をもたらす。
条件付けのこのパスワイズ解釈が、ガウス過程の後部を効率的にサンプリングするのに役立てる近似の一般族をいかに生み出すかを示す。
論文 参考訳(メタデータ) (2020-11-08T17:09:37Z) - Monte-Carlo Tree Search as Regularized Policy Optimization [47.541849128047865]
我々は,AlphaZeroの探索アルゴリズムが,特定の正規化ポリシ最適化問題の解の近似であることを示す。
我々は、このポリシー最適化問題の正確な解法を用いて、AlphaZeroの変種を提案し、複数の領域において元のアルゴリズムを確実に上回ることを示す。
論文 参考訳(メタデータ) (2020-07-24T13:01:34Z) - Variational Policy Gradient Method for Reinforcement Learning with
General Utilities [38.54243339632217]
近年,累積報酬の合計を超える総合目標を持つ強化学習システムが注目を集めている。
本稿では,一般的な凹凸ユーティリティ関数を対象とする決定問題におけるポリシーについて考察する。
汎用性を持つRLの新しい変分ポリシー勾配定理を導出する。
論文 参考訳(メタデータ) (2020-07-04T17:51:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。