Fugu-MT 論文翻訳(概要): minimax: Efficient Baselines for Autocurricula in JAX

論文の概要: minimax: Efficient Baselines for Autocurricula in JAX

arxiv url: http://arxiv.org/abs/2311.12716v2
Date: Thu, 23 Nov 2023 19:12:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 01:45:40.782488
Title: minimax: Efficient Baselines for Autocurricula in JAX
Title（参考訳）: minimax: JAX における Autocurricula の効率的なベースライン
Authors: Minqi Jiang, Michael Dennis, Edward Grefenstette, Tim Rockt\"aschel
Abstract要約: この研究は、加速ハードウェア上でのUEDトレーニングのためのminimaxライブラリを導入している。 JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
参考スコア（独自算出の注目度）: 30.664874531580594
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Unsupervised environment design (UED) is a form of automatic curriculum learning for training robust decision-making agents to zero-shot transfer into unseen environments. Such autocurricula have received much interest from the RL community. However, UED experiments, based on CPU rollouts and GPU model updates, have often required several weeks of training. This compute requirement is a major obstacle to rapid innovation for the field. This work introduces the minimax library for UED training on accelerated hardware. Using JAX to implement fully-tensorized environments and autocurriculum algorithms, minimax allows the entire training loop to be compiled for hardware acceleration. To provide a petri dish for rapid experimentation, minimax includes a tensorized grid-world based on MiniGrid, in addition to reusable abstractions for conducting autocurricula in procedurally-generated environments. With these components, minimax provides strong UED baselines, including new parallelized variants, which achieve over 120$\times$ speedups in wall time compared to previous implementations when training with equal batch sizes. The minimax library is available under the Apache 2.0 license at https://github.com/facebookresearch/minimax.
Abstract（参考訳）: 教師なし環境設計(unsupervised environment design, ued)は、ロバストな意思決定エージェントを訓練し、目に見えない環境へゼロショット転送する自動カリキュラム学習の一形態である。このようなautocurriculaはrlコミュニティから大きな関心を集めている。しかし、CPUロールアウトとGPUモデルの更新に基づくUED実験は、しばしば数週間のトレーニングを必要とした。この計算要求は、この分野の急速な革新の大きな障害である。本研究は、加速ハードウェア上でのuedトレーニングのためのminimaxライブラリを紹介する。 JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。手続き的に生成された環境でオートキュリキュラを行うための再利用可能な抽象化に加えて、MiniGridに基づくテンソル化グリッドワールドを含む、迅速な実験用のペトリ皿を提供する。これらのコンポーネントにより、minimaxは、バッチサイズのトレーニングで以前の実装と比較して120$\times$のスピードアップを実現する新しい並列化バージョンを含む、強力なuedベースラインを提供する。 minimaxライブラリはApache 2.0ライセンスでhttps://github.com/facebookresearch/minimax.comから入手できる。

関連論文リスト

AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文参考訳（メタデータ） (2025-02-27T14:46:22Z)
Syllabus: Portable Curricula for Reinforcement Learning Agents [21.20246467152236]
Syllabusはポータブルなカリキュラム学習ライブラリである。カリキュラム学習のためのユニバーサルAPI、人気のある自動カリキュラム学習メソッドのモジュール実装、インフラを提供する。我々はNetHackとNeural MMOの2つの最も難しいRLベンチマークにおいて、自動カリキュラム学習の最初の例を示す。
論文参考訳（メタデータ） (2024-11-18T06:22:30Z)
NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。 NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文参考訳（メタデータ） (2024-07-28T04:39:18Z)
JaxMARL: Multi-Agent RL Environments and Algorithms in JAX [105.343918678781]
我々は、GPU対応の効率と多くの一般的なMARL環境のサポートを組み合わせた、最初のオープンソースPythonベースのライブラリであるJaxMARLを紹介します。我々の実験は、壁時計時間の観点から、JAXベースのトレーニングパイプラインが既存のアプローチの約14倍高速であることを示している。また、人気の高いStarCraft Multi-Agent ChallengeのJAXベースの近似的な再実装であるSMAXを紹介し、ベンチマークする。
論文参考訳（メタデータ） (2023-11-16T18:58:43Z)
Rethinking Closed-loop Training for Autonomous Driving [82.61418945804544]
本研究は,学習エージェントの成功に対する異なるトレーニングベンチマーク設計の影響を分析した最初の実証的研究である。複数ステップのルックアヘッドで計画を行うRLベースの駆動エージェントであるtrajectory value learning (TRAVL)を提案する。実験の結果,TRAVLはすべてのベースラインと比較してより速く学習でき,安全な操作が可能であることがわかった。
論文参考訳（メタデータ） (2023-06-27T17:58:39Z)
Cramming: Training a Language Model on a Single GPU in One Day [64.18297923419627]
言語モデリングの最近のトレンドは、スケーリングによるパフォーマンス向上に焦点を当てている。我々は,1つのコンシューマGPU上で1日間,マスク付き言語モデルを用いてゼロから完全に訓練されたトランスフォーマーベース言語モデルで達成可能なダウンストリーム性能について検討した。この制約された設定であっても、大規模設定で観測されるスケーリングの法則に密接に従う性能を示す。
論文参考訳（メタデータ） (2022-12-28T18:59:28Z)
Parallel Reinforcement Learning Simulation for Visual Quadrotor Navigation [4.597465975849579]
強化学習(Reinforcement Learning、RL)は、ロボットに物理的な世界の中をナビゲートするように教えるエージェントベースのアプローチである。本稿では,AirSim上に構築された並列学習を効率的に行うシミュレーションフレームワークを提案する。このフレームワーク上に構築されたApe-Xは、AirSim環境の分散トレーニングを組み込むように修正されている。
論文参考訳（メタデータ） (2022-09-22T15:27:42Z)
ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文参考訳（メタデータ） (2021-12-11T06:31:21Z)
Braxlines: Fast and Interactive Toolkit for RL-driven Behavior Engineering beyond Reward Maximization [15.215372246434413]
強化学習(RL)によるアプローチでは、継続的な制御の目標は、望ましい振る舞いを合成することである。本稿では,単純な報酬RLを超える高速かつインタラクティブな行動生成ツールキットであるbraxlinesを紹介する。我々の実装は、JaxのハードウェアアクセラレーションであるBraxシミュレータ上に構築されており、最小限の修正を施し、トレーニングの数分以内に動作を可能にする。
論文参考訳（メタデータ） (2021-10-10T02:41:01Z)
Brax -- A Differentiable Physics Engine for Large Scale Rigid Body Simulation [33.36244621210259]
JAXで書かれた剛体シミュレーションのためのオープンソースのライブラリであるBraxを紹介します。既存の強化学習文献にインスパイアされた一連のタスクについて結果を提示するが、エンジンで再作成する。
論文参考訳（メタデータ） (2021-06-24T19:09:12Z)
Large Batch Simulation for Deep Reinforcement Learning [101.01408262583378]
我々は,視覚複雑な3次元環境における深層強化学習に基づく学習を,事前作業よりも2桁高速化する。単一のGPUマシンで1秒間に19,000フレーム以上の経験と最大72,000フレーム/秒のエンドツーエンドのトレーニング速度を実現します。バッチシミュレーションと性能最適化を組み合わせることで、1つのGPU上の複雑な3D環境において、従来の最先端システムでトレーニングされたエージェントの精度の97%から97%まで、ポイントナビゲーションエージェントをトレーニングできることを実証する。
論文参考訳（メタデータ） (2021-03-12T00:22:50Z)
An Active Learning Framework for Constructing High-fidelity Mobility Maps [0.0]
本稿では,機械学習分類器の学習に必要なシミュレーション数を,精度を犠牲にすることなく大幅に削減する,能動的学習パラダイムを提案する。実験結果から, ランダムサンプリングと比較した場合のシミュレーション回数の半分以下を用いて, ニューラルネットワークを高精度に学習できることが示唆された。
論文参考訳（メタデータ） (2020-03-07T04:50:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。