論文の概要: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
- arxiv url: http://arxiv.org/abs/2312.12044v4
- Date: Tue, 19 Nov 2024 09:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-20 13:33:25.050594
- Title: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
- Title(参考訳): XLand-MiniGrid:JAXにおけるスケーラブルなメタ強化学習環境
- Authors: Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Artem Agarkov, Viacheslav Sinii, Sergey Kolesnikov,
- Abstract要約: XLand-MiniGridは、メタ強化学習研究のためのツールとグリッドワールド環境のスイートである。
JAXで書かれたXLand-MiniGridは高度にスケーラブルで、GPUやTPUアクセラレータ上で実行することができる。
- 参考スコア(独自算出の注目度): 44.084458075924736
- License:
- Abstract: Inspired by the diversity and depth of XLand and the simplicity and minimalism of MiniGrid, we present XLand-MiniGrid, a suite of tools and grid-world environments for meta-reinforcement learning research. Written in JAX, XLand-MiniGrid is designed to be highly scalable and can potentially run on GPU or TPU accelerators, democratizing large-scale experimentation with limited resources. Along with the environments, XLand-MiniGrid provides pre-sampled benchmarks with millions of unique tasks of varying difficulty and easy-to-use baselines that allow users to quickly start training adaptive agents. In addition, we have conducted a preliminary analysis of scaling and generalization, showing that our baselines are capable of reaching millions of steps per second during training and validating that the proposed benchmarks are challenging. XLand-MiniGrid is open-source and available at https://github.com/dunnolab/xland-minigrid.
- Abstract(参考訳): XLandの多様性と深さ、MiniGridのシンプルさとミニマリズムに触発され、メタ強化学習研究のためのツールとグリッドワールド環境のスイートであるXLand-MiniGridを紹介した。
JAXで書かれたXLand-MiniGridは高度にスケーラブルな設計で、GPUやTPUアクセラレータ上で実行でき、限られたリソースで大規模な実験を民主化することができる。
環境とともに、XLand-MiniGridは、ユーザが適応エージェントのトレーニングを素早く始められるような、難易度と使い易いベースラインの、何百万ものユニークなタスクで、事前サンプリングされたベンチマークを提供する。
さらに,スケーリングと一般化の予備的な分析を行い,トレーニング中にベースラインが毎秒数百万ステップに達することを示し,提案したベンチマークが困難であることを検証した。
XLand-MiniGridはオープンソースでhttps://github.com/dunnolab/xland-minigrid.comで公開されている。
関連論文リスト
- How Feature Learning Can Improve Neural Scaling Laws [86.9540615081759]
我々は,カーネル限界を超えたニューラルスケーリング法則の解法モデルを開発する。
モデルのサイズ、トレーニング時間、利用可能なデータの総量によるパフォーマンスのスケールアップ方法を示す。
論文 参考訳(メタデータ) (2024-09-26T14:05:32Z) - PCGRL+: Scaling, Control and Generalization in Reinforcement Learning Level Generators [2.334978724544296]
制御可能なデザイナーエージェントを訓練する手段として,PCGRL (Procedural Content Generation) が導入された。
PCGRLはゲームデザイナーにユニークな余裕を提供するが、RLエージェントを訓練する計算集約的なプロセスによって制約される。
我々はJaxにいくつかのPCGRL環境を実装し、GPU上で学習とシミュレーションのあらゆる側面が並列に行われるようにした。
論文 参考訳(メタデータ) (2024-08-22T16:30:24Z) - NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。
NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。
これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文 参考訳(メタデータ) (2024-07-28T04:39:18Z) - Gaussian Splatting to Real World Flight Navigation Transfer with Liquid Networks [93.38375271826202]
本研究では,シミュレート・トゥ・リアルな視覚四重項ナビゲーションタスクにおける分布シフトに対する一般化とロバスト性を改善する手法を提案する。
まず,擬似飛行力学とガウススプラッティングを統合してシミュレータを構築し,その後,液状ニューラルネットワークを用いてロバストなナビゲーションポリシーを訓練する。
このようにして、我々は3次元ガウススプラッティングラディアンス場レンダリング、専門家による実演訓練データのプログラミング、およびLiquid Networkのタスク理解能力の進歩を組み合わせたフルスタックの模倣学習プロトコルを得る。
論文 参考訳(メタデータ) (2024-06-21T13:48:37Z) - XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning [44.084458075924736]
我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットである textbfXLand-100B を提案する。
これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。
論文 参考訳(メタデータ) (2024-06-13T10:04:17Z) - minimax: Efficient Baselines for Autocurricula in JAX [42.270349368227436]
この研究は、加速ハードウェア上でのUEDトレーニングのためのminimaxライブラリを導入している。
JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
論文 参考訳(メタデータ) (2023-11-21T16:43:13Z) - GridWarm: Towards Practical Physics-Informed ML Design and Evaluation
for Power Grid [0.08602553195689511]
一般的な機械学習手法は、高価なトレーニング、非物理的ソリューション、限定的な解釈可能性に悩まされている。
本稿では,「MLモデルが物理的に意味のある方法でどのように予測を行うか」を評価する,物理的解釈可能性の新しい概念を定式化する。
このフレームワークにインスパイアされたこの論文は、MadIoTサイバー攻撃のための新しい緊急解析ウォームスターターであるGridWarmをさらに発展させた。
論文 参考訳(メタデータ) (2022-05-07T15:54:33Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - ETH-XGaze: A Large Scale Dataset for Gaze Estimation under Extreme Head
Pose and Gaze Variation [52.5465548207648]
ETH-XGazeは100万以上の高解像度画像からなる新しい視線推定データセットである。
我々のデータセットは、異なる頭部ポーズと視線角度で視線推定手法のロバスト性を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-31T04:15:53Z) - Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。
30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文 参考訳(メタデータ) (2020-06-25T17:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。