論文の概要: Lamarckian Platform: Pushing the Boundaries of Evolutionary
Reinforcement Learning towards Asynchronous Commercial Games
- arxiv url: http://arxiv.org/abs/2209.10055v1
- Date: Wed, 21 Sep 2022 00:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:16:52.749644
- Title: Lamarckian Platform: Pushing the Boundaries of Evolutionary
Reinforcement Learning towards Asynchronous Commercial Games
- Title(参考訳): lamarckian platform: 進化的強化学習の境界を非同期商用ゲームへと押し上げる
- Authors: Hui Bai, Ruimin Shen, Yue Lin, Botian Xu, Ran Cheng
- Abstract要約: Lamarckianはオープンソースのプラットフォームで、分散コンピューティングリソースにスケーラブルな進化的強化学習をサポートする。
トレーニング速度とデータ効率を改善するため、Lamarckianでは、最適化された通信方法と非同期強化学習ワークフローを採用している。
最先端のRLlibと比較して、最大6000CPUコアのベンチマークテストにおいて、Lamarckianの独特な利点を実証的に示す。
- 参考スコア(独自算出の注目度): 15.235269143648399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the emerging progress of integrating evolutionary computation into
reinforcement learning, the absence of a high-performance platform endowing
composability and massive parallelism causes non-trivial difficulties for
research and applications related to asynchronous commercial games. Here we
introduce Lamarckian - an open-source platform featuring support for
evolutionary reinforcement learning scalable to distributed computing
resources. To improve the training speed and data efficiency, Lamarckian adopts
optimized communication methods and an asynchronous evolutionary reinforcement
learning workflow. To meet the demand for an asynchronous interface by
commercial games and various methods, Lamarckian tailors an asynchronous Markov
Decision Process interface and designs an object-oriented software architecture
with decoupled modules. In comparison with the state-of-the-art RLlib, we
empirically demonstrate the unique advantages of Lamarckian on benchmark tests
with up to 6000 CPU cores: i) both the sampling efficiency and training speed
are doubled when running PPO on Google football game; ii) the training speed is
13 times faster when running PBT+PPO on Pong game. Moreover, we also present
two use cases: i) how Lamarckian is applied to generating behavior-diverse game
AI; ii) how Lamarckian is applied to game balancing tests for an asynchronous
commercial game.
- Abstract(参考訳): 進化的計算を強化学習に統合することの進歩にもかかわらず、コンポーザビリティと大規模並列性を備えた高性能なプラットフォームが欠如していることは、非同期商用ゲームに関する研究や応用において、非自明な困難をもたらす。
ここでは、分散コンピューティングリソースにスケーラブルな進化的強化学習をサポートするオープンソースプラットフォームであるlamarckianを紹介する。
トレーニング速度とデータ効率を改善するため、lamarckianは最適化されたコミュニケーション手法と非同期進化強化学習ワークフローを採用している。
商用ゲームや様々な方法による非同期インターフェースの需要に応えるため、Lamarckianは非同期マルコフ決定プロセスインタフェースをカスタマイズし、分離モジュールを持つオブジェクト指向ソフトウェアアーキテクチャを設計する。
最先端のRLlibと比較して、最大6000CPUコアのベンチマークテストにおいて、Lamarckianのユニークな利点を実証的に示す。
i) GoogleのフットボールゲームにおけるPPOの実行時にサンプリング効率とトレーニング速度が2倍になること。
ii)Pongゲーム上でPBT+PPOを実行する場合,トレーニング速度は13倍速くなる。
さらに,2つのユースケースも紹介する。
i) lamarckian が行動多様性ゲーム ai の生成にどのように適用されるか。
ii)lamarckianを非同期商用ゲームのゲームバランステストに適用する方法。
関連論文リスト
- Kraken: Inherently Parallel Transformers For Efficient Multi-Device Inference [8.527031391688283]
Krakenは、マルチデバイスシステムの効率的な推論のための標準的なTransformerアーキテクチャの進化である。
OpenWebTextでトレーニングすると、Krakenモデルは標準のTransformerと同じような難易度に達する。
SuperGLUEベンチマークでテストすると、Krakenはモデルサイズで平均35.6%のタイム・トゥ・ファースト・トークンをスピードアップする。
論文 参考訳(メタデータ) (2024-08-14T20:24:03Z) - Guided Evolution with Binary Discriminators for ML Program Search [64.44893463120584]
プログラムのペアがどのプログラムの方が優れているかを識別するために、オンラインで訓練された二項判別器による指導進化を提案する。
本稿では,MLの記号探索における3.7倍の高速化,RL損失関数の4倍の高速化など,様々な問題に対する進化の高速化を実証する。
論文 参考訳(メタデータ) (2024-02-08T16:59:24Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。
我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。
また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - FedLALR: Client-Specific Adaptive Learning Rates Achieve Linear Speedup
for Non-IID Data [54.81695390763957]
フェデレートラーニング(Federated Learning)は、分散機械学習の手法である。
我々は,AMSGradの異種局所変種であるFedLALRを提案し,各クライアントが学習率を調整する。
クライアントが指定した自動調整型学習率スケジューリングが,クライアント数に対して収束し,線形高速化を実現することを示す。
論文 参考訳(メタデータ) (2023-09-18T12:35:05Z) - Accelerating Evolution Through Gene Masking and Distributed Search [16.8615211682877]
本稿では,両目標を同時に達成するためのアプローチとしてBLADE(BLAnket Distributed Evolution)を提案する。
BLADEは、探索中に進化演算子を調整するために毛布を使用し、ハブ・アンド・スポーク分布による探索を実装している。
論文 参考訳(メタデータ) (2023-02-13T23:11:25Z) - evosax: JAX-based Evolution Strategies [0.0]
evosaxは進化最適化アルゴリズムのJAXベースのライブラリです。
evosaxは30の進化最適化アルゴリズムを実装している。
モジュラー方式で設計されており、シンプルなRequest-evaluate-tell APIを通じてフレキシブルな使用を可能にする。
論文 参考訳(メタデータ) (2022-12-08T10:34:42Z) - Pisces: Efficient Federated Learning via Guided Asynchronous Training [42.46549526793953]
フェデレーテッド・ラーニング(FL)は通常、遅いクライアントの関与がトレーニングのイテレーションを遅らせる、同期的な並列的な方法で実行される。
現在のFLでは、各イテレーションで品質データを持つ高速クライアントを選択するために、参加者選択戦略を採用している。
本稿では、インテリジェントな受入選択とモデルアグリゲーションを備えた非同期FLシステムであるPiscesについて述べる。
論文 参考訳(メタデータ) (2022-06-18T18:25:30Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - High-Throughput Synchronous Deep RL [132.43861715707905]
HTS-RL(High-Throughput Synchronous Deep Reinforcement Learning)の提案
私たちは同時に学習とロールアウトを行い、古いポリシーを避けるシステム設計を考案します。
我々は,アタリゲームとGoogle Research Football環境に対するアプローチを評価した。
論文 参考訳(メタデータ) (2020-12-17T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。