論文の概要: minimax: Efficient Baselines for Autocurricula in JAX
- arxiv url: http://arxiv.org/abs/2311.12716v2
- Date: Thu, 23 Nov 2023 19:12:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 01:45:40.782488
- Title: minimax: Efficient Baselines for Autocurricula in JAX
- Title(参考訳): minimax: JAX における Autocurricula の効率的なベースライン
- Authors: Minqi Jiang, Michael Dennis, Edward Grefenstette, Tim Rockt\"aschel
- Abstract要約: この研究は、加速ハードウェア上でのUEDトレーニングのためのminimaxライブラリを導入している。
JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
- 参考スコア(独自算出の注目度): 30.664874531580594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised environment design (UED) is a form of automatic curriculum
learning for training robust decision-making agents to zero-shot transfer into
unseen environments. Such autocurricula have received much interest from the RL
community. However, UED experiments, based on CPU rollouts and GPU model
updates, have often required several weeks of training. This compute
requirement is a major obstacle to rapid innovation for the field. This work
introduces the minimax library for UED training on accelerated hardware. Using
JAX to implement fully-tensorized environments and autocurriculum algorithms,
minimax allows the entire training loop to be compiled for hardware
acceleration. To provide a petri dish for rapid experimentation, minimax
includes a tensorized grid-world based on MiniGrid, in addition to reusable
abstractions for conducting autocurricula in procedurally-generated
environments. With these components, minimax provides strong UED baselines,
including new parallelized variants, which achieve over 120$\times$ speedups in
wall time compared to previous implementations when training with equal batch
sizes. The minimax library is available under the Apache 2.0 license at
https://github.com/facebookresearch/minimax.
- Abstract(参考訳): 教師なし環境設計(unsupervised environment design, ued)は、ロバストな意思決定エージェントを訓練し、目に見えない環境へゼロショット転送する自動カリキュラム学習の一形態である。
このようなautocurriculaはrlコミュニティから大きな関心を集めている。
しかし、CPUロールアウトとGPUモデルの更新に基づくUED実験は、しばしば数週間のトレーニングを必要とした。
この計算要求は、この分野の急速な革新の大きな障害である。
本研究は、加速ハードウェア上でのuedトレーニングのためのminimaxライブラリを紹介する。
JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
手続き的に生成された環境でオートキュリキュラを行うための再利用可能な抽象化に加えて、MiniGridに基づくテンソル化グリッドワールドを含む、迅速な実験用のペトリ皿を提供する。
これらのコンポーネントにより、minimaxは、バッチサイズのトレーニングで以前の実装と比較して120$\times$のスピードアップを実現する新しい並列化バージョンを含む、強力なuedベースラインを提供する。
minimaxライブラリはApache 2.0ライセンスでhttps://github.com/facebookresearch/minimax.comから入手できる。
関連論文リスト
- JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。
複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。
実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文 参考訳(メタデータ) (2023-06-27T17:58:39Z) - Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。
我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。
この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文 参考訳(メタデータ) (2022-12-28T18:59:28Z) - Parallel Reinforcement Learning Simulation for Visual Quadrotor
Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。
本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。
このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文 参考訳(メタデータ) (2022-09-22T15:27:42Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - Braxlines: Fast and Interactive Toolkit for RL-driven Behavior
Engineering beyond Reward Maximization [15.215372246434413]
強化学習(RL)によるアプローチでは、継続的な制御の目標は、望ましい振る舞いを合成することである。
本稿では,単純な報酬RLを超える高速かつインタラクティブな行動生成ツールキットであるbraxlinesを紹介する。
我々の実装は、JaxのハードウェアアクセラレーションであるBraxシミュレータ上に構築されており、最小限の修正を施し、トレーニングの数分以内に動作を可能にする。
論文 参考訳(メタデータ) (2021-10-10T02:41:01Z) - Brax -- A Differentiable Physics Engine for Large Scale Rigid Body
Simulation [33.36244621210259]
JAXで書かれた剛体シミュレーションのためのオープンソースのライブラリであるBraxを紹介します。
既存の強化学習文献にインスパイアされた一連のタスクについて結果を提示するが、エンジンで再作成する。
論文 参考訳(メタデータ) (2021-06-24T19:09:12Z) - Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。
単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。
バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文 参考訳(メタデータ) (2021-03-12T00:22:50Z) - Multi-node Bert-pretraining: Cost-efficient Approach [6.5998084177955425]
大規模トランスフォーマーベースの言語モデルは、多くの自然言語処理(NLP)タスクの最先端結果にエキサイティングな飛躍をもたらした。
大規模な教師なしデータセットの出現により、単一のトレーニングエポック内のデータサンプルの増加により、トレーニング時間がさらに延長される。
学術的な環境では、適切な時間予算(12日)でBERTの事前訓練を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-01T05:49:20Z) - An Active Learning Framework for Constructing High-fidelity Mobility
Maps [0.0]
本稿では,機械学習分類器の学習に必要なシミュレーション数を,精度を犠牲にすることなく大幅に削減する,能動的学習パラダイムを提案する。
実験結果から, ランダムサンプリングと比較した場合のシミュレーション回数の半分以下を用いて, ニューラルネットワークを高精度に学習できることが示唆された。
論文 参考訳(メタデータ) (2020-03-07T04:50:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。