論文の概要: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
- arxiv url: http://arxiv.org/abs/2312.12044v1
- Date: Tue, 19 Dec 2023 10:57:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:05:31.629753
- Title: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
- Title(参考訳): XLand-MiniGrid:JAXにおけるスケーラブルなメタ強化学習環境
- Authors: Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Artem Agarkov,
Viacheslav Sinii, Sergey Kolesnikov
- Abstract要約: メタ強化学習研究のためのツールとグリッドワールド環境のスイートであるXLand-MiniGridを紹介する。
XLand-MinigridはJAXで書かれており、高度にスケーラブルに設計されており、GPUやTPUアクセラレータ上で実行することができる。
- 参考スコア(独自算出の注目度): 46.29510499540938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present XLand-MiniGrid, a suite of tools and grid-world environments for
meta-reinforcement learning research inspired by the diversity and depth of
XLand and the simplicity and minimalism of MiniGrid. XLand-Minigrid is written
in JAX, designed to be highly scalable, and can potentially run on GPU or TPU
accelerators, democratizing large-scale experimentation with limited resources.
To demonstrate the generality of our library, we have implemented some
well-known single-task environments as well as new meta-learning environments
capable of generating $10^8$ distinct tasks. We have empirically shown that the
proposed environments can scale up to $2^{13}$ parallel instances on the GPU,
reaching tens of millions of steps per second.
- Abstract(参考訳): 我々は,xland の多様性と深さ,minigrid の単純さと最小性に触発されたメタ強化学習研究のためのツールとグリッドワールド環境のスイートである xland-minigrid を提案する。
XLand-MinigridはJAXで書かれており、高度にスケーラブルに設計されており、GPUやTPUアクセラレータ上で実行できる可能性がある。
ライブラリの汎用性を示すため、我々はよく知られたシングルタスク環境と10^8$のタスクを生成可能な新しいメタ学習環境を実装した。
提案した環境はGPU上で最大2^{13}$並列インスタンスにスケールアップでき、毎秒数千万ステップに達することを実証的に示しています。
関連論文リスト
- FloorSet - a VLSI Floorplanning Dataset with Design Constraints of Real-World SoCs [10.277800264277452]
システム・オン・ア・チップ(SoC)とそのサブシステムのフロアプランニングは、物理的設計フローの重要かつ非自明なステップである。
FloorSet - 合成固定アウトラインフロアプランレイアウトの包括的なデータセットを2つ紹介する。
論文 参考訳(メタデータ) (2024-05-09T00:37:56Z) - minimax: Efficient Baselines for Autocurricula in JAX [30.664874531580594]
この研究は、加速ハードウェア上でのUEDトレーニングのためのminimaxライブラリを導入している。
JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
論文 参考訳(メタデータ) (2023-11-21T16:43:13Z) - JaxMARL: Multi-Agent RL Environments in JAX [107.7560737385902]
我々は、使いやすさとGPU有効性を組み合わせた最初のオープンソースコードベースであるJaxMARLを紹介します。
私たちの実験によると、JAXベースのトレーニングパイプラインの実行は、既存のアプローチよりも最大で12500倍高速です。
また、人気のあるStarCraft Multi-Agent Challengeのベクトル化、単純化されたバージョンであるSMAXを紹介し、ベンチマークする。
論文 参考訳(メタデータ) (2023-11-16T18:58:43Z) - A Comprehensive Study on Large-Scale Graph Training: Benchmarking and
Rethinking [124.21408098724551]
グラフニューラルネットワーク(GNN)の大規模グラフトレーニングは、非常に難しい問題である
本稿では,既存の問題に対処するため,EnGCNという新たなアンサンブルトレーニング手法を提案する。
提案手法は,大規模データセット上でのSOTA(State-of-the-art)の性能向上を実現している。
論文 参考訳(メタデータ) (2022-10-14T03:43:05Z) - GridWarm: Towards Practical Physics-Informed ML Design and Evaluation
for Power Grid [0.08602553195689511]
一般的な機械学習手法は、高価なトレーニング、非物理的ソリューション、限定的な解釈可能性に悩まされている。
本稿では,「MLモデルが物理的に意味のある方法でどのように予測を行うか」を評価する,物理的解釈可能性の新しい概念を定式化する。
このフレームワークにインスパイアされたこの論文は、MadIoTサイバー攻撃のための新しい緊急解析ウォームスターターであるGridWarmをさらに発展させた。
論文 参考訳(メタデータ) (2022-05-07T15:54:33Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Braxlines: Fast and Interactive Toolkit for RL-driven Behavior
Engineering beyond Reward Maximization [15.215372246434413]
強化学習(RL)によるアプローチでは、継続的な制御の目標は、望ましい振る舞いを合成することである。
本稿では,単純な報酬RLを超える高速かつインタラクティブな行動生成ツールキットであるbraxlinesを紹介する。
我々の実装は、JaxのハードウェアアクセラレーションであるBraxシミュレータ上に構築されており、最小限の修正を施し、トレーニングの数分以内に動作を可能にする。
論文 参考訳(メタデータ) (2021-10-10T02:41:01Z) - Vision-Based Autonomous Drone Control using Supervised Learning in
Simulation [0.0]
室内環境におけるMAVの自律的ナビゲーションと着陸にSupervised Learningを用いた視覚に基づく制御手法を提案する。
我々は、低解像度画像とセンサー入力を高レベル制御コマンドにマッピングする畳み込みニューラルネットワーク(CNN)を訓練した。
我々のアプローチは、類似の強化学習アプローチよりも短いトレーニング時間を必要としており、匹敵するSupervised Learningアプローチが直面する手動データ収集の限界を克服する可能性がある。
論文 参考訳(メタデータ) (2020-09-09T13:45:41Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。