論文の概要: On-line Policy Improvement using Monte-Carlo Search
- arxiv url: http://arxiv.org/abs/2501.05407v1
- Date: Thu, 09 Jan 2025 18:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:12.932408
- Title: On-line Policy Improvement using Monte-Carlo Search
- Title(参考訳): モンテカルロ探索によるオンライン政策改善
- Authors: Gerald Tesauro, Gregory R. Galperin,
- Abstract要約: 適応制御器のリアルタイムポリシー改善のためのモンテカルロシミュレーションアルゴリズムを提案する。
我々のアルゴリズムは並列化が容易であり、IBM SP1とSP2の並列RISCスーパーコンピュータ上で実装されている。
- 参考スコア(独自算出の注目度): 5.787890316746393
- License:
- Abstract: We present a Monte-Carlo simulation algorithm for real-time policy improvement of an adaptive controller. In the Monte-Carlo simulation, the long-term expected reward of each possible action is statistically measured, using the initial policy to make decisions in each step of the simulation. The action maximizing the measured expected reward is then taken, resulting in an improved policy. Our algorithm is easily parallelizable and has been implemented on the IBM SP1 and SP2 parallel-RISC supercomputers. We have obtained promising initial results in applying this algorithm to the domain of backgammon. Results are reported for a wide variety of initial policies, ranging from a random policy to TD-Gammon, an extremely strong multi-layer neural network. In each case, the Monte-Carlo algorithm gives a substantial reduction, by as much as a factor of 5 or more, in the error rate of the base players. The algorithm is also potentially useful in many other adaptive control applications in which it is possible to simulate the environment.
- Abstract(参考訳): 適応制御器のリアルタイムポリシー改善のためのモンテカルロシミュレーションアルゴリズムを提案する。
モンテカルロシミュレーションでは、予測される各アクションの長期的な報酬を統計的に測定し、初期ポリシーを用いてシミュレーションの各ステップで決定を行う。
そして、測定された期待報酬を最大化するアクションを取り、その結果、ポリシーが改善される。
我々のアルゴリズムは並列化が容易であり、IBM SP1とSP2の並列RISCスーパーコンピュータ上で実装されている。
我々はこのアルゴリズムをバックギャモンの領域に適用するという有望な最初の結果を得た。
ランダムなポリシから、非常に強力な多層ニューラルネットワークであるTD-Gammonまで、さまざまな初期ポリシーが報告されている。
いずれの場合も、モンテカルロのアルゴリズムは、ベースプレイヤーの誤差率において、最大5以上の係数で大幅に減少する。
このアルゴリズムは、環境をシミュレートできる他の多くの適応制御アプリケーションでも有用である。
関連論文リスト
- Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Efficient Policy Evaluation with Offline Data Informed Behavior Policy Design [18.326126953667842]
オンラインモンテカルロ推定器のデータ効率を向上させる新しい手法を提案する。
まず,オンラインモンテカルロ推定器のばらつきを確実に低減する閉形式行動ポリシーを提案する。
次に、以前に収集したオフラインデータから、このクローズドフォームの動作ポリシーを学習するための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-31T16:12:31Z) - Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time
Guarantees [56.848265937921354]
逆強化学習(IRL)は報酬関数と関連する最適ポリシーを回復することを目的としている。
IRLの多くのアルゴリズムは本質的にネスト構造を持つ。
我々は、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-10-04T17:13:45Z) - Multi-Objective Policy Gradients with Topological Constraints [108.10241442630289]
本稿では, PPOアルゴリズムの簡単な拡張により, TMDPにおけるポリシー勾配に対する新しいアルゴリズムを提案する。
シミュレーションと実ロボットの両方の目的を任意に並べた実世界の多目的ナビゲーション問題に対して,これを実証する。
論文 参考訳(メタデータ) (2022-09-15T07:22:58Z) - Robust optimal well control using an adaptive multi-grid reinforcement
learning framework [0.0]
強化学習は、堅牢な最適ウェルコントロール問題を解決するための有望なツールである。
提案するフレームワークは、最先端のモデルフリーポリシーベースのRLアルゴリズムを用いて実証される。
計算効率の顕著な向上は,提案したフレームワークを用いて,1つのファイングリッドの計算コストの約60~70%を削減した。
論文 参考訳(メタデータ) (2022-07-07T12:08:57Z) - Policy Gradient Algorithms with Monte Carlo Tree Learning for Non-Markov Decision Processes [3.9311044240639568]
政策勾配 (PG) は、勾配上昇を用いたパラメータ化政策モデルを最適化する強化学習 (RL) アプローチである。
PGは非マルコフ環境でもうまく機能するが、高原やピークネスの問題に遭遇することがある。
本稿では、まず、オンラインRLのためのMCTSの適応であるモンテカルロ木学習(MCTL)を紹介し、その強みを活用するためにPGとMCTLの政策アプローチについて検討する。
論文 参考訳(メタデータ) (2022-06-02T12:21:40Z) - Learning Optimal Antenna Tilt Control Policies: A Contextual Linear
Bandit Approach [65.27783264330711]
セルラーネットワークにおけるアンテナ傾きの制御は、ネットワークのカバレッジとキャパシティの間の効率的なトレードオフに到達するために不可欠である。
既存のデータから最適な傾き制御ポリシーを学習するアルゴリズムを考案する。
従来のルールベースの学習アルゴリズムよりもはるかに少ないデータサンプルを用いて最適な傾き更新ポリシーを作成できることを示す。
論文 参考訳(メタデータ) (2022-01-06T18:24:30Z) - Learning Sampling Policy for Faster Derivative Free Optimization [100.27518340593284]
ランダムサンプリングではなく,ZO最適化における摂動を生成するためのサンプリングポリシを学習する,新たな強化学習ベースのZOアルゴリズムを提案する。
その結果,ZO-RLアルゴリズムはサンプリングポリシを学習することでZO勾配の分散を効果的に低減し,既存のZOアルゴリズムよりも高速に収束できることが示唆された。
論文 参考訳(メタデータ) (2021-04-09T14:50:59Z) - Recurrent Model Predictive Control [19.047059454849897]
一般非線形有限水平最適制御問題を解くために,リカレントモデル予測制御(RMPC)と呼ばれるオフラインアルゴリズムを提案する。
提案アルゴリズムは,システム状態と参照値を直接制御入力にマッピングする最適ポリシを近似するために,繰り返し関数を用いる。
論文 参考訳(メタデータ) (2021-02-23T15:01:36Z) - Model-Based Policy Search Using Monte Carlo Gradient Estimation with
Real Systems Application [12.854118767247453]
EmphMonte Carlo Probabilistic Inference for Learning Control (MC-PILCO) というモデルベース強化学習(MBRL)アルゴリズムを提案する。
このアルゴリズムは、システム力学をモデル化するガウス過程(GP)と、政策勾配を推定するモンテカルロのアプローチに依存している。
シミュレーションされたカートポール環境における数値的な比較により、MC-PILCOはより優れたデータ効率と制御性能を示すことが示された。
論文 参考訳(メタデータ) (2021-01-28T17:01:15Z) - Deep Bayesian Quadrature Policy Optimization [100.81242753620597]
ディープベイズ二次政策勾配 (Deep Bayesian quadrature Policy gradient, DBQPG) は、政策勾配推定のためのベイズ二次政策の高次元一般化である。
政策勾配法では,DBQPGがモンテカルロ推定を代用できることを示すとともに,一連の連続制御ベンチマーク上での有効性を示す。
論文 参考訳(メタデータ) (2020-06-28T15:44:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。