論文の概要: Combining Off and On-Policy Training in Model-Based Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2102.12194v1
- Date: Wed, 24 Feb 2021 10:47:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-26 00:14:00.554768
- Title: Combining Off and On-Policy Training in Model-Based Reinforcement
Learning
- Title(参考訳): モデルベース強化学習におけるオフ・ポリシトレーニングとオン・ポリシトレーニングの組み合わせ
- Authors: Alexandre Borges and Arlindo Oliveira
- Abstract要約: MuZeroのシミュレートゲームから得られたデータを用いて、オフポリシターゲットの取得方法を提案する。
以上の結果から,これらの目標がトレーニングプロセスのスピードアップと,より高速な収束とより高い報酬につながることが示唆された。
- 参考スコア(独自算出の注目度): 77.34726150561087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The combination of deep learning and Monte Carlo Tree Search (MCTS) has shown
to be effective in various domains, such as board and video games. AlphaGo
represented a significant step forward in our ability to learn complex board
games, and it was rapidly followed by significant advances, such as AlphaGo
Zero and AlphaZero. Recently, MuZero demonstrated that it is possible to master
both Atari games and board games by directly learning a model of the
environment, which is then used with MCTS to decide what move to play in each
position. During tree search, the algorithm simulates games by exploring
several possible moves and then picks the action that corresponds to the most
promising trajectory. When training, limited use is made of these simulated
games since none of their trajectories are directly used as training examples.
Even if we consider that not all trajectories from simulated games are useful,
there are thousands of potentially useful trajectories that are discarded.
Using information from these trajectories would provide more training data,
more quickly, leading to faster convergence and higher sample efficiency.
Recent work introduced an off-policy value target for AlphaZero that uses data
from simulated games. In this work, we propose a way to obtain off-policy
targets using data from simulated games in MuZero. We combine these off-policy
targets with the on-policy targets already used in MuZero in several ways, and
study the impact of these targets and their combinations in three environments
with distinct characteristics. When used in the right combinations, our results
show that these targets speed up the training process and lead to faster
convergence and higher rewards than the ones obtained by MuZero.
- Abstract(参考訳): ディープラーニングとモンテカルロ木探索(MCTS)の組み合わせは,ボードゲームやビデオゲームなど,さまざまな領域で有効であることが示されている。
AlphaGoは複雑なボードゲームを学ぶ能力において大きな進歩を示しており、AlphaGo ZeroやAlphaZeroといった大きな進歩が急速に続いた。
最近、MuZeroは、環境のモデルを直接学習することによってAtariゲームとボードゲームの両方をマスターできることを実証しました。
ツリー検索中、アルゴリズムはいくつかの可能な動きを探索してゲームをシミュレートし、最も有望な軌道に対応するアクションを選択します。
トレーニングにおいて、これらのシミュレーションゲームは、どの軌道もトレーニングの例として直接使用しないため、限定的に使用される。
シミュレーションゲームからのすべてのトラジェクトリが有用ではないと仮定しても、何千もの潜在的に有用なトラジェクトリが破棄されている。
これらの軌道からの情報を使用することで、より高速なトレーニングデータが得られるようになり、より高速な収束とサンプル効率が向上する。
最近の研究は、シミュレーションゲームのデータを使用するalphazeroのオフポリシー値ターゲットを導入した。
本研究では,muzeroのシミュレーションゲームから得られたデータを用いて,オフポリシーターゲットを得る手法を提案する。
これらのオフポリシーターゲットとムゼロで既に使用されているオンポリシーターゲットをいくつかの方法で組み合わせ、異なる特性を持つ3つの環境におけるこれらのターゲットとその組み合わせの影響を研究します。
適切な組み合わせで使用すると、これらの目標がトレーニングプロセスを高速化し、MuZeroが得たものよりも早く収束し、より高い報酬をもたらすことが示される。
関連論文リスト
- Imitating Shortest Paths in Simulation Enables Effective Navigation and
Manipulation in the Real World [46.977470141707315]
シミュレーションにおける最短経路プランナーの模倣は、オブジェクトを巧みにナビゲートし、探索し、操作できるエージェントを生み出すことを示す。
この驚くべき結果は、エンドツーエンドのトランスフォーマーベースのSPOCアーキテクチャ、広範な画像拡張と組み合わせた強力なビジュアルエンコーダによって実現されます。
論文 参考訳(メタデータ) (2023-12-05T18:59:45Z) - MiniZero: Comparative Analysis of AlphaZero and MuZero on Go, Othello,
and Atari Games [9.807988283091728]
MiniZeroは、ゼロ知識学習フレームワークで、4つの最先端アルゴリズムをサポートする。
我々は,2つのボードゲーム,9x9 Go,8x8 Othello,57のAtariゲームにおいて,各アルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-10-17T14:29:25Z) - Accelerate Multi-Agent Reinforcement Learning in Zero-Sum Games with
Subgame Curriculum Learning [65.36326734799587]
ゼロサムゲームのための新しいサブゲームカリキュラム学習フレームワークを提案する。
エージェントを以前に訪れた状態にリセットすることで、適応的な初期状態分布を採用する。
我々は,2乗距離をNE値に近似するサブゲーム選択指標を導出する。
論文 参考訳(メタデータ) (2023-10-07T13:09:37Z) - Targeted Search Control in AlphaZero for Effective Policy Improvement [93.30151539224144]
我々はAlphaZeroの新しい検索制御戦略であるGo-Exploitを紹介する。
Go-Exploitは、関心のある状態のアーカイブからセルフプレイトラジェクトリの開始状態をサンプリングする。
Go-Exploitは、標準のAlphaZeroよりも優れたサンプル効率で学習する。
論文 参考訳(メタデータ) (2023-02-23T22:50:24Z) - Efficient Offline Policy Optimization with a Learned Model [83.64779942889916]
MuZero Unpluggedはログデータからオフラインポリシー学習に有望なアプローチを提供する。
MCTS(Monte-Carlo Tree Search)を学習モデルで実行し、Reanalyzeアルゴリズムを利用してオフラインデータから純粋に学習する。
本稿では,オフライン設定下では MuZero Unplugged がうまく動作しないという仮説について検討する。
論文 参考訳(メタデータ) (2022-10-12T07:41:04Z) - DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning [65.00325925262948]
本稿では,概念的にシンプルで効果的なDouDizhu AIシステム,すなわちDouZeroを提案する。
DouZeroは、ディープニューラルネットワーク、アクションエンコーディング、並列アクターによる従来のモンテカルロ法を強化している。
ボットゾーンのリーダーボードでは344人のAIエージェントの中で第1位にランクインした。
論文 参考訳(メタデータ) (2021-06-11T02:45:51Z) - Complex Momentum for Learning in Games [42.081050296353574]
我々は、微分可能なゲームにおいて学習する運動量を伴う勾配降下を複素数値運動量を持つように一般化する。
我々は、複雑な値の運動量によってゲーム内の収束性が改善できることを実証する。
我々はまた、CIFAR-10のより良いスコアにBigGANを訓練するために使用する複素値アダム変種への実用的な一般化を示す。
論文 参考訳(メタデータ) (2021-02-16T19:55:27Z) - SimAug: Learning Robust Representations from Simulation for Trajectory
Prediction [78.91518036949918]
本研究では,シミュレーション学習データの拡張により,ロバスト表現を学習する新しい手法を提案する。
我々は,SimAugが実世界の3つのベンチマークで有望な結果を得ることを示す。
論文 参考訳(メタデータ) (2020-04-04T21:22:01Z) - Polygames: Improved Zero Learning [21.114734326593002]
DeepMindのAlphaZero以来、ゼロラーニングは多くのボードゲームで最先端の手法となった。
ゲームライブラリとチェックポイントを備えた,ゼロ学習のためのフレームワークであるPolygamesをリリースする。
私たちは1919年のヘックスの試合で強い人間と対戦しました。
論文 参考訳(メタデータ) (2020-01-27T14:49:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。