論文の概要: Accelerating and Improving AlphaZero Using Population Based Training
- arxiv url: http://arxiv.org/abs/2003.06212v1
- Date: Fri, 13 Mar 2020 11:56:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-24 00:56:52.735570
- Title: Accelerating and Improving AlphaZero Using Population Based Training
- Title(参考訳): 人口学習によるalphazeroの高速化と改善
- Authors: Ti-Rong Wu, Ting-Han Wei, I-Chen Wu
- Abstract要約: 本稿では,人口ベーストレーニング(PBT)を用いてハイパーパラメータを動的に調整し,トレーニング時の強度向上を支援することを提案する。
9x9 Goの実験では, PBT法はベースラインよりも9x9 Goの方が高い勝利率を達成することができた。
- 参考スコア(独自算出の注目度): 11.3700474413248
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AlphaZero has been very successful in many games. Unfortunately, it still
consumes a huge amount of computing resources, the majority of which is spent
in self-play. Hyperparameter tuning exacerbates the training cost since each
hyperparameter configuration requires its own time to train one run, during
which it will generate its own self-play records. As a result, multiple runs
are usually needed for different hyperparameter configurations. This paper
proposes using population based training (PBT) to help tune hyperparameters
dynamically and improve strength during training time. Another significant
advantage is that this method requires a single run only, while incurring a
small additional time cost, since the time for generating self-play records
remains unchanged though the time for optimization is increased following the
AlphaZero training algorithm. In our experiments for 9x9 Go, the PBT method is
able to achieve a higher win rate for 9x9 Go than the baselines, each with its
own hyperparameter configuration and trained individually. For 19x19 Go, with
PBT, we are able to obtain improvements in playing strength. Specifically, the
PBT agent can obtain up to 74% win rate against ELF OpenGo, an open-source
state-of-the-art AlphaZero program using a neural network of a comparable
capacity. This is compared to a saturated non-PBT agent, which achieves a win
rate of 47% against ELF OpenGo under the same circumstances.
- Abstract(参考訳): AlphaZeroは多くのゲームで成功している。
残念ながら、まだ大量のコンピューティングリソースを消費しており、その大半はセルフプレイに費やされている。
ハイパーパラメータチューニングは、各ハイパーパラメータ構成が1回の実行をトレーニングするのに独自の時間を必要とするため、トレーニングコストが向上する。
その結果、通常、異なるハイパーパラメータ構成に対して複数の実行が必要になる。
本稿では,人口ベーストレーニング(PBT)を用いてハイパーパラメータを動的に調整し,トレーニング時の強度を向上させることを提案する。
もうひとつの大きな利点は、AlphaZeroのトレーニングアルゴリズムの後に最適化の時間が増加するにもかかわらず、自己再生レコードを生成する時間は変化しないため、単一の実行のみを必要とすることだ。
9x9 Goの実験では, PBT法はベースラインよりも9x9 Goの方が高い勝率を達成でき, それぞれが独自のハイパーパラメータ構成を持ち, 個別に訓練されている。
19×19 Goでは、PBTで演奏強度を改善することができる。
具体的には、PBTエージェントは、同等容量のニューラルネットワークを使用して、オープンソースのAlphaZeroプログラムであるELF OpenGoに対して最大74%の勝利率を得ることができる。
これは、同じ状況下でELF OpenGoに対して47%の勝利率を達成する飽和非PBT剤と比較される。
関連論文リスト
- GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。
本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。
本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文 参考訳(メタデータ) (2023-10-04T07:56:42Z) - Peeling the Onion: Hierarchical Reduction of Data Redundancy for
Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。
従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。
本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-19T21:15:47Z) - Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。
PBTスタイルの手法に2つの新しい革新を導入する。
これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文 参考訳(メタデータ) (2022-07-19T16:57:38Z) - Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。
提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。
アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文 参考訳(メタデータ) (2021-10-30T09:13:39Z) - Faster Improvement Rate Population Based Training [7.661301899629696]
本稿では、人口ベーストレーニング(PBT)の問題に対処する高速改善率PBT(FIRE PBT)を提案する。
我々は、新しいフィットネス指標を導き、それを使って、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。
実験の結果、FIRE PBTはImageNetベンチマークでPBTより優れており、手動学習率のスケジュールでトレーニングされたネットワークの性能と一致していることがわかった。
論文 参考訳(メタデータ) (2021-09-28T15:30:55Z) - Learning to Run with Potential-Based Reward Shaping and Demonstrations
from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。
すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。
本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文 参考訳(メタデータ) (2020-12-16T09:46:58Z) - Analysis of Hyper-Parameters for Small Games: Iterations or Epochs in
Self-Play? [4.534822382040738]
セルフプレイでは、モンテカルロ木探索(Monte Carlo Tree Search)が深層ニューラルネットワークのトレーニングに使用され、木探索に使用される。
これらのパラメータがAlphaZeroのようなセルフプレイアルゴリズムのトレーニングにどのように貢献するかを評価する。
トレーニングが多すぎるとパフォーマンスが低下する、驚くべき結果が得られます。
論文 参考訳(メタデータ) (2020-03-12T19:28:48Z) - DADA: Differentiable Automatic Data Augmentation [58.560309490774976]
コストを大幅に削減する微分可能自動データ拡張(DADA)を提案する。
CIFAR-10, CIFAR-100, SVHN, ImageNetのデータセットについて広範な実験を行った。
その結果,DADAは最先端技術よりも1桁以上高速であり,精度は極めて高いことがわかった。
論文 参考訳(メタデータ) (2020-03-08T13:23:14Z) - Provably Efficient Online Hyperparameter Optimization with
Population-Based Bandits [12.525529586816955]
提案手法は, 人口ベース帯域幅推定アルゴリズムを初めて提案する。
PB2は確率モデルを用いて探索を効率的に導く。
PB2 が計算予算を緩やかに抑えながら高い性能を達成できることを, 一連の RL 実験で示す。
論文 参考訳(メタデータ) (2020-02-06T21:27:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。