論文の概要: Combining Off and On-Policy Training in Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.12194v1
- Date: Wed, 24 Feb 2021 10:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 00:14:00.554768
- Title: Combining Off and On-Policy Training in Model-Based Reinforcement
Learning
- Title(参考訳): モデルベース強化学習におけるオフ・ポリシトレーニングとオン・ポリシトレーニングの組み合わせ
- Authors: Alexandre Borges and Arlindo Oliveira
- Abstract要約: MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combination of deep learning and Monte Carlo Tree Search (MCTS) has shown
to be effective in various domains, such as board and video games. AlphaGo
represented a significant step forward in our ability to learn complex board
games, and it was rapidly followed by significant advances, such as AlphaGo
Zero and AlphaZero. Recently, MuZero demonstrated that it is possible to master
both Atari games and board games by directly learning a model of the
environment, which is then used with MCTS to decide what move to play in each
position. During tree search, the algorithm simulates games by exploring
several possible moves and then picks the action that corresponds to the most
promising trajectory. When training, limited use is made of these simulated
games since none of their trajectories are directly used as training examples.
Even if we consider that not all trajectories from simulated games are useful,
there are thousands of potentially useful trajectories that are discarded.
Using information from these trajectories would provide more training data,
more quickly, leading to faster convergence and higher sample efficiency.
Recent work introduced an off-policy value target for AlphaZero that uses data
from simulated games. In this work, we propose a way to obtain off-policy
targets using data from simulated games in MuZero. We combine these off-policy
targets with the on-policy targets already used in MuZero in several ways, and
study the impact of these targets and their combinations in three environments
with distinct characteristics. When used in the right combinations, our results
show that these targets speed up the training process and lead to faster
convergence and higher rewards than the ones obtained by MuZero.
- Abstract(参考訳): ディープラーニングとモンテカルロ木探索(MCTS)の組み合わせは,ボードゲームやビデオゲームなど,さまざまな領域で有効であることが示されている。
AlphaGoは複雑なボードゲームを学ぶ能力において大きな進歩を示しており、AlphaGo ZeroやAlphaZeroといった大きな進歩が急速に続いた。
最近、MuZeroは、環境のモデルを直接学習することによってAtariゲームとボードゲームの両方をマスターできることを実証しました。
ツリー検索中、アルゴリズムはいくつかの可能な動きを探索してゲームをシミュレートし、最も有望な軌道に対応するアクションを選択します。
トレーニングにおいて、これらのシミュレーションゲームは、どの軌道もトレーニングの例として直接使用しないため、限定的に使用される。
シミュレーションゲームからのすべてのトラジェクトリが有用ではないと仮定しても、何千もの潜在的に有用なトラジェクトリが破棄されている。
これらの軌道からの情報を使用することで、より高速なトレーニングデータが得られるようになり、より高速な収束とサンプル効率が向上する。
最近の研究は、シミュレーションゲームのデータを使用するalphazeroのオフポリシー値ターゲットを導入した。
本研究では,muzeroのシミュレーションゲームから得られたデータを用いて,オフポリシーターゲットを得る手法を提案する。
これらのオフポリシーターゲットとムゼロで既に使用されているオンポリシーターゲットをいくつかの方法で組み合わせ、異なる特性を持つ3つの環境におけるこれらのターゲットとその組み合わせの影響を研究します。
適切な組み合わせで使用すると、これらの目標がトレーニングプロセスを高速化し、MuZeroが得たものよりも早く収束し、より高い報酬をもたらすことが示される。
関連論文リスト
- Interpreting the Learned Model in MuZero Planning [12.47846647115319]
MuZeroは、動的ネットワークを用いて、計画のための環境ダイナミクスを予測することで、様々なゲームで超人的なパフォーマンスを実現している。
本稿では,学習した潜伏状態の解釈により,MuZeroのモデルをデミスティフィケートすることを目的とする。
論文 参考訳(メタデータ) (2024-11-07T10:06:23Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [60.05963742334746]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello, and Atari Games [9.339645051415115]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - Model-Based Reinforcement Learning for Atari [89.3039240303797]
エージェントがモデルフリーの手法よりも少ないインタラクションでAtariゲームを解くことができることを示す。
本実験は,エージェントと環境間の100kの相互作用の少ないデータ構造における,AtariゲームにおけるSimPLeの評価である。
論文 参考訳(メタデータ) (2019-03-01T15:40:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。