論文の概要: Manipulating the Distributions of Experience used for Self-Play Learning
in Expert Iteration
- arxiv url: http://arxiv.org/abs/2006.00283v1
- Date: Sat, 30 May 2020 14:32:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 17:33:55.549835
- Title: Manipulating the Distributions of Experience used for Self-Play Learning
in Expert Iteration
- Title(参考訳): エキスパートイテレーションにおける自己プレイ学習における経験分布の操作
- Authors: Dennis J. N. J. Soemers, \'Eric Piette, Matthew Stephenson, Cameron
Browne
- Abstract要約: ExIt(Expert Iteration)は、セルフプレイからゲームプレイングポリシーを学ぶための効果的なフレームワークである。
本稿では,自己再生から収集したデータの分布を操作するための3つのアプローチについて概説する。
- 参考スコア(独自算出の注目度): 5.849736173068868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Expert Iteration (ExIt) is an effective framework for learning game-playing
policies from self-play. ExIt involves training a policy to mimic the search
behaviour of a tree search algorithm - such as Monte-Carlo tree search - and
using the trained policy to guide it. The policy and the tree search can then
iteratively improve each other, through experience gathered in self-play
between instances of the guided tree search algorithm. This paper outlines
three different approaches for manipulating the distribution of data collected
from self-play, and the procedure that samples batches for learning updates
from the collected data. Firstly, samples in batches are weighted based on the
durations of the episodes in which they were originally experienced. Secondly,
Prioritized Experience Replay is applied within the ExIt framework, to
prioritise sampling experience from which we expect to obtain valuable training
signals. Thirdly, a trained exploratory policy is used to diversify the
trajectories experienced in self-play. This paper summarises the effects of
these manipulations on training performance evaluated in fourteen different
board games. We find major improvements in early training performance in some
games, and minor improvements averaged over fourteen games.
- Abstract(参考訳): ExIt(Expert Iteration)は、セルフプレイからゲームプレイングポリシーを学ぶための効果的なフレームワークである。
ExItは、モンテカルロ木探索のような木探索アルゴリズムの探索動作を模倣するポリシーを訓練し、訓練されたポリシーを使用してそれをガイドする。
ポリシーとツリーサーチは、ガイド付きツリーサーチアルゴリズムのインスタンス間で自己再生された経験を通じて、相互に反復的に改善することができる。
本稿では,自己再生から収集したデータ分布を操作するための3つのアプローチと,収集したデータから更新を学習するためのバッチをサンプリングする手順について概説する。
第一に、バッチ内のサンプルは、元々経験したエピソードの継続時間に基づいて重み付けされる。
第2に,ExItフレームワーク内での優先的体験再生を適用して,貴重なトレーニング信号を得ることを期待するサンプリング経験を優先する。
第三に、自己プレイで経験した軌道を多様化するために訓練された探索政策が用いられる。
本稿では,14種類のボードゲームにおいて,これらの操作がトレーニング性能に及ぼす影響を要約する。
いくつかのゲームでは、早期トレーニングのパフォーマンスが大幅に改善され、14ゲームで小さな改善が平均された。
関連論文リスト
- Watch Your Step: Optimal Retrieval for Continual Learning at Scale [1.7265013728931]
連続学習では、モデルは古いタスクと新しいタスクの間の干渉を最小限にしながら、時間とともに漸進的に学習する。
継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。
本稿では,単純で独立したクラス選択型プリミティブとサンプル選択型プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。
本稿では,重複したリプレイを防止し,損失値の低い新しいサンプルをリプレイなしで学習できるかどうかを探索する戦略を提案する。
論文 参考訳(メタデータ) (2024-04-16T17:35:35Z) - Fast Peer Adaptation with Context-aware Exploration [63.08444527039578]
マルチエージェントゲームにおける学習エージェントに対するピア識別報酬を提案する。
この報酬は、効果的な探索と迅速な適応のための文脈認識ポリシーを学ぶためのエージェントのモチベーションとなる。
我々は,競争力のある(クーンポーカー),協力的(PO-Overcooked),あるいは混合的(Predator-Prey-W)な(Pedator-Prey-W)ゲームを含む多種多様なテストベッドについて評価を行った。
論文 参考訳(メタデータ) (2024-02-04T13:02:27Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - A Study of Forward-Forward Algorithm for Self-Supervised Learning [65.268245109828]
本研究では,自己指導型表現学習におけるフォワードとバックプロパゲーションのパフォーマンスについて検討する。
我々の主な発見は、フォワードフォワードアルゴリズムが(自己教師付き)トレーニング中にバックプロパゲーションに相容れないように機能するのに対し、転送性能は研究されたすべての設定において著しく遅れていることである。
論文 参考訳(メタデータ) (2023-09-21T10:14:53Z) - Unsupervised 3D registration through optimization-guided cyclical
self-training [71.75057371518093]
最先端のディープラーニングベースの登録方法は、3つの異なる学習戦略を採用している。
本稿では,教師なし登録のための自己指導型学習パラダイムを提案する。
腹部, 肺の登録方法の評価を行い, 測定基準に基づく監督を一貫して上回り, 最先端の競争相手よりも優れていた。
論文 参考訳(メタデータ) (2023-06-29T14:54:10Z) - A Ranking Game for Imitation Learning [22.028680861819215]
模倣を、$textitpolicy$と$textitreward$関数の間の2プレイヤーランキングベースのStackelbergゲームとして扱う。
このゲームは、オフラインの好みから学習する逆強化学習(IRL)法と方法の両方の多くのサブセットを含んでいる。
本研究では,均衡条件下での準最適模倣学習を容易にするために,政策性能のランク付けに使用される損失関数の要件を理論的に分析する。
論文 参考訳(メタデータ) (2022-02-07T19:38:22Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Improving Experience Replay with Successor Representation [0.0]
優先順位付けされた経験の再生は、学習を高速化する強化学習技術である。
神経科学における最近の研究は、生物において、リプレイは利得と必要性の両方によって優先順位付けされていることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T05:25:54Z) - An Empirical Study on the Generalization Power of Neural Representations
Learned via Visual Guessing Games [79.23847247132345]
本研究は,視覚質問応答(VQA)のような新しいNLP下流タスクにおいて,後から実行を依頼されたとき,人工エージェントが推測ゲームでどの程度の利益を得ることができるかを検討する。
提案手法は,1) エージェントがうまく推理ゲームを模倣することを学習する教師あり学習シナリオ,2) エージェントが単独でプレイする新しい方法,すなわち,反復経験学習(SPIEL)によるセルフプレイ(Self-play)を提案する。
論文 参考訳(メタデータ) (2021-01-31T10:30:48Z) - Single-Agent Optimization Through Policy Iteration Using Monte-Carlo
Tree Search [8.22379888383833]
モンテカルロ・ツリー・サーチ(MCTS)と深部強化学習の組み合わせは,2プレイヤー完全情報ゲームにおける最先端の手法である。
本稿では,MCTS の変種を利用した探索アルゴリズムについて述べる。1) 潜在的に有界な報酬を持つゲームに対する新たなアクション値正規化機構,2) 効果的な探索並列化を可能にする仮想損失関数の定義,3) 世代ごとのセルフプレイによって訓練されたポリシーネットワークについて述べる。
論文 参考訳(メタデータ) (2020-05-22T18:02:36Z) - Never Give Up: Learning Directed Exploration Strategies [63.19616370038824]
そこで我々は,多岐にわたる探索政策を学習し,ハード・サーベイ・ゲームを解決するための強化学習エージェントを提案する。
エージェントの最近の経験に基づいて,k-アネレスト隣人を用いたエピソード記憶に基づく本質的な報酬を構築し,探索政策を訓練する。
自己教師付き逆動力学モデルを用いて、近くのルックアップの埋め込みを訓練し、エージェントが制御できる新しい信号をバイアスする。
論文 参考訳(メタデータ) (2020-02-14T13:57:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。