Fugu-MT 論文翻訳(概要): Accelerating and Improving AlphaZero Using Population Based Training

論文の概要: Accelerating and Improving AlphaZero Using Population Based Training

arxiv url: http://arxiv.org/abs/2003.06212v1
Date: Fri, 13 Mar 2020 11:56:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-24 00:56:52.735570
Title: Accelerating and Improving AlphaZero Using Population Based Training
Title（参考訳）: 人口学習によるalphazeroの高速化と改善
Authors: Ti-Rong Wu, Ting-Han Wei, I-Chen Wu
Abstract要約: 本稿では,人口ベーストレーニング(PBT)を用いてハイパーパラメータを動的に調整し,トレーニング時の強度向上を支援することを提案する。 9x9 Goの実験では, PBT法はベースラインよりも9x9 Goの方が高い勝利率を達成することができた。
参考スコア（独自算出の注目度）: 11.3700474413248
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: AlphaZero has been very successful in many games. Unfortunately, it still consumes a huge amount of computing resources, the majority of which is spent in self-play. Hyperparameter tuning exacerbates the training cost since each hyperparameter configuration requires its own time to train one run, during which it will generate its own self-play records. As a result, multiple runs are usually needed for different hyperparameter configurations. This paper proposes using population based training (PBT) to help tune hyperparameters dynamically and improve strength during training time. Another significant advantage is that this method requires a single run only, while incurring a small additional time cost, since the time for generating self-play records remains unchanged though the time for optimization is increased following the AlphaZero training algorithm. In our experiments for 9x9 Go, the PBT method is able to achieve a higher win rate for 9x9 Go than the baselines, each with its own hyperparameter configuration and trained individually. For 19x19 Go, with PBT, we are able to obtain improvements in playing strength. Specifically, the PBT agent can obtain up to 74% win rate against ELF OpenGo, an open-source state-of-the-art AlphaZero program using a neural network of a comparable capacity. This is compared to a saturated non-PBT agent, which achieves a win rate of 47% against ELF OpenGo under the same circumstances.
Abstract（参考訳）: AlphaZeroは多くのゲームで成功している。残念ながら、まだ大量のコンピューティングリソースを消費しており、その大半はセルフプレイに費やされている。ハイパーパラメータチューニングは、各ハイパーパラメータ構成が1回の実行をトレーニングするのに独自の時間を必要とするため、トレーニングコストが向上する。その結果、通常、異なるハイパーパラメータ構成に対して複数の実行が必要になる。本稿では,人口ベーストレーニング(PBT)を用いてハイパーパラメータを動的に調整し,トレーニング時の強度を向上させることを提案する。もうひとつの大きな利点は、AlphaZeroのトレーニングアルゴリズムの後に最適化の時間が増加するにもかかわらず、自己再生レコードを生成する時間は変化しないため、単一の実行のみを必要とすることだ。 9x9 Goの実験では, PBT法はベースラインよりも9x9 Goの方が高い勝率を達成でき, それぞれが独自のハイパーパラメータ構成を持ち, 個別に訓練されている。 19×19 Goでは、PBTで演奏強度を改善することができる。具体的には、PBTエージェントは、同等容量のニューラルネットワークを使用して、オープンソースのAlphaZeroプログラムであるELF OpenGoに対して最大74%の勝利率を得ることができる。これは、同じ状況下でELF OpenGoに対して47%の勝利率を達成する飽和非PBT剤と比較される。

関連論文リスト

FastTD3: Simple, Fast, and Capable Reinforcement Learning for Humanoid Control [49.08235196039602]
FastTD3は強化学習(RL)アルゴリズムで、1つのA100 GPU上で3時間以内のHumanoidBenchタスクを解く。我々はまた、ロボット工学におけるRL研究を加速するために、FastTD3の軽量で使いやすい実装を提供する。
論文参考訳（メタデータ） (2025-05-28T17:55:26Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
Reinforcement Learning with Foundation Priors: Let the Embodied Agent Efficiently Learn on Its Own [59.11934130045106]
我々は、政策、価値、成功-回帰基盤モデルからのガイダンスとフィードバックを活用するために、RLFP(Reinforcement Learning with Foundation Priors)を提案する。本フレームワークでは,自動報酬関数を用いてより効率的にエージェントを探索できるファウンデーション誘導型アクター・クリティカル(FAC)アルゴリズムを導入する。本手法は,実ロボットとシミュレーションの両方において,様々な操作タスクにおいて顕著な性能を実現する。
論文参考訳（メタデータ） (2023-10-04T07:56:42Z)
Peeling the Onion: Hierarchical Reduction of Data Redundancy for Efficient Vision Transformer Training [110.79400526706081]
ビジョントランス (ViT) は近年多くのアプリケーションで成功を収めているが、その計算量とメモリ使用量によって一般化が制限されている。従来の圧縮アルゴリズムは通常、事前訓練された高密度モデルから始まり、効率的な推論のみに焦点を当てる。本稿では,3つのスパースの観点から,Tri-Level E-ViTと呼ばれるエンドツーエンドの効率的なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-11-19T21:15:47Z)
Bayesian Generational Population-Based Training [35.70338636901159]
Population-Based Training (PBT)は、いくつかの大規模な設定で素晴らしいパフォーマンスを実現している。 PBTスタイルの手法に2つの新しい革新を導入する。これらのイノベーションが大きなパフォーマンス向上につながっていることを示しています。
論文参考訳（メタデータ） (2022-07-19T16:57:38Z)
Mastering Atari Games with Limited Data [73.6189496825209]
我々は,MuZero上に構築したモデルベースビジュアルRLアルゴリズムのサンプルを提案し,これをEfficientZeroと呼ぶ。提案手法は,Atari 100kベンチマークで平均190.4%の人的パフォーマンスを達成し,実戦経験は2時間に過ぎなかった。アルゴリズムがそのような小さなデータでアタリゲーム上で超人的パフォーマンスを達成するのは、これが初めてである。
論文参考訳（メタデータ） (2021-10-30T09:13:39Z)
Faster Improvement Rate Population Based Training [7.661301899629696]
本稿では、人口ベーストレーニング(PBT)の問題に対処する高速改善率PBT(FIRE PBT)を提案する。我々は、新しいフィットネス指標を導き、それを使って、一部の人口構成員が長期的なパフォーマンスに集中できるようにします。実験の結果、FIRE PBTはImageNetベンチマークでPBTより優れており、手動学習率のスケジュールでトレーニングされたネットワークの性能と一致していることがわかった。
論文参考訳（メタデータ） (2021-09-28T15:30:55Z)
Learning to Run with Potential-Based Reward Shaping and Demonstrations from Video Data [70.540936204654]
「走ることを学ぶ」競技は、二本足のヒューマノイドボディを最高速度で模擬レースコースで走るように訓練することであった。すべての提出者は、強化学習(RL)へのタブラララサアプローチを採り入れ、比較的速いが最適な実行動作は得られなかった。本研究では,人間のランニング映像から得られるデータを用いて,ヒューマノイド学習エージェントの報酬を形成できることを示す。
論文参考訳（メタデータ） (2020-12-16T09:46:58Z)
Analysis of Hyper-Parameters for Small Games: Iterations or Epochs in Self-Play? [4.534822382040738]
セルフプレイでは、モンテカルロ木探索(Monte Carlo Tree Search)が深層ニューラルネットワークのトレーニングに使用され、木探索に使用される。これらのパラメータがAlphaZeroのようなセルフプレイアルゴリズムのトレーニングにどのように貢献するかを評価する。トレーニングが多すぎるとパフォーマンスが低下する、驚くべき結果が得られます。
論文参考訳（メタデータ） (2020-03-12T19:28:48Z)
DADA: Differentiable Automatic Data Augmentation [58.560309490774976]
コストを大幅に削減する微分可能自動データ拡張(DADA)を提案する。 CIFAR-10, CIFAR-100, SVHN, ImageNetのデータセットについて広範な実験を行った。その結果,DADAは最先端技術よりも1桁以上高速であり,精度は極めて高いことがわかった。
論文参考訳（メタデータ） (2020-03-08T13:23:14Z)
Provably Efficient Online Hyperparameter Optimization with Population-Based Bandits [12.525529586816955]
提案手法は, 人口ベース帯域幅推定アルゴリズムを初めて提案する。 PB2は確率モデルを用いて探索を効率的に導く。 PB2 が計算予算を緩やかに抑えながら高い性能を達成できることを, 一連の RL 実験で示す。
論文参考訳（メタデータ） (2020-02-06T21:27:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。