Fugu-MT 論文翻訳(概要): XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

論文の概要: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX

arxiv url: http://arxiv.org/abs/2312.12044v4
Date: Tue, 19 Nov 2024 09:52:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:30.128982
Title: XLand-MiniGrid: Scalable Meta-Reinforcement Learning Environments in JAX
Title（参考訳）: XLand-MiniGrid:JAXにおけるスケーラブルなメタ強化学習環境
Authors: Alexander Nikulin, Vladislav Kurenkov, Ilya Zisman, Artem Agarkov, Viacheslav Sinii, Sergey Kolesnikov,
Abstract要約: XLand-MiniGridは、メタ強化学習研究のためのツールとグリッドワールド環境のスイートである。 JAXで書かれたXLand-MiniGridは高度にスケーラブルで、GPUやTPUアクセラレータ上で実行することができる。
参考スコア（独自算出の注目度）: 44.084458075924736
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by the diversity and depth of XLand and the simplicity and minimalism of MiniGrid, we present XLand-MiniGrid, a suite of tools and grid-world environments for meta-reinforcement learning research. Written in JAX, XLand-MiniGrid is designed to be highly scalable and can potentially run on GPU or TPU accelerators, democratizing large-scale experimentation with limited resources. Along with the environments, XLand-MiniGrid provides pre-sampled benchmarks with millions of unique tasks of varying difficulty and easy-to-use baselines that allow users to quickly start training adaptive agents. In addition, we have conducted a preliminary analysis of scaling and generalization, showing that our baselines are capable of reaching millions of steps per second during training and validating that the proposed benchmarks are challenging. XLand-MiniGrid is open-source and available at https://github.com/dunnolab/xland-minigrid.
Abstract（参考訳）: XLandの多様性と深さ、MiniGridのシンプルさとミニマリズムに触発され、メタ強化学習研究のためのツールとグリッドワールド環境のスイートであるXLand-MiniGridを紹介した。 JAXで書かれたXLand-MiniGridは高度にスケーラブルな設計で、GPUやTPUアクセラレータ上で実行でき、限られたリソースで大規模な実験を民主化することができる。環境とともに、XLand-MiniGridは、ユーザが適応エージェントのトレーニングを素早く始められるような、難易度と使い易いベースラインの、何百万ものユニークなタスクで、事前サンプリングされたベンチマークを提供する。さらに,スケーリングと一般化の予備的な分析を行い,トレーニング中にベースラインが毎秒数百万ステップに達することを示し,提案したベンチマークが困難であることを検証した。 XLand-MiniGridはオープンソースでhttps://github.com/dunnolab/xland-minigrid.comで公開されている。

関連論文リスト

TABX: A High-Throughput Sandbox Battle Simulator for Multi-Agent Reinforcement Learning [4.254850120280717]
我々は、再構成可能なマルチエージェントタスクのために、JAX (TABX) におけるトータル・アクセラレーション・バトルシミュレータを導入する。 TABXは大規模な並列化を可能にし、計算オーバーヘッドを大幅に削減する。高速でスケーラブルで簡単にカスタマイズできるフレームワークを提供することで、TABXは将来の研究のためのスケーラブルな基盤となる。
論文参考訳（メタデータ） (2026-02-02T05:34:38Z)
Zoom in, Click out: Unlocking and Evaluating the Potential of Zooming for GUI Grounding [71.97466930670936]
グラウンディングはグラフィカルユーザインタフェース(GUI)エージェントを構築するための基本的な機能である。本稿ではGUIグラウンディングに先立って未探索の強いズームについて検討し,トレーニング不要なZoomClick法を提案する。実験により,本手法は汎用視覚言語と特殊GUIグラウンドモデルの両方の性能を著しく向上させることが示された。
論文参考訳（メタデータ） (2025-12-05T18:39:12Z)
Generalist Scanner Meets Specialist Locator: A Synergistic Coarse-to-Fine Framework for Robust GUI Grounding [53.14935624161711]
GMS: Generalist Scanner Meets Specialist LocatorはGUIグラウンディングのパフォーマンスを効果的に改善する相乗的粗大なフレームワークです。このデザインは、人間がGUIグラウンドを実行する方法にインスパイアされ、目がインターフェイスをスキャンし、脳が解釈と局所化に焦点を当てる。 ScreenSpot-Proデータセットの実験結果によると、'Scanner'モデルと'Locator'モデルは、それぞれ独立して使用する場合、それぞれ2.0%$と3.7%$の精度しか達成していないが、GMSフレームワークへの統合により、全体的な精度は35.7%$である。
論文参考訳（メタデータ） (2025-09-29T00:06:31Z)
ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks [18.672482188560622]
MS-HABは、低レベルの操作と家庭内オブジェクト再構成のための総合的なベンチマークである。我々は、現実的な低レベル制御をサポートし、GPUメモリ使用率のごく一部で、事前の魔法の把握実装の3倍の速度を達成する。
論文参考訳（メタデータ） (2024-12-09T01:29:24Z)
NAVIX: Scaling MiniGrid Environments with JAX [17.944645332888335]
JAX における MiniGrid の再実装である NAVIX を紹介します。 NAVIXはバッチモードで20000倍以上の速度向上を実現し、Nvidia A100 80 GBで最大2048エージェントを並行してサポートする。これは実験時間を1週間から15分に短縮し、より高速な設計とよりスケーラブルなRLモデル開発を促進する。
論文参考訳（メタデータ） (2024-07-28T04:39:18Z)
XLand-100B: A Large-Scale Multi-Task Dataset for In-Context Reinforcement Learning [44.084458075924736]
我々は,XLand-MiniGrid環境に基づくテキスト内強化学習のための大規模データセットである textbfXLand-100B を提案する。これには3万ドル近い異なるタスクのための完全な学習履歴が含まれ、100ドルBの移行と2.5ドルBのエピソードをカバーしている。
論文参考訳（メタデータ） (2024-06-13T10:04:17Z)
minimax: Efficient Baselines for Autocurricula in JAX [42.270349368227436]
この研究は、加速ハードウェア上でのUEDトレーニングのためのminimaxライブラリを導入している。 JAXを使って完全に拡張された環境とオートキュラムアルゴリズムを実装し、minimaxはハードウェアアクセラレーションのためにトレーニングループ全体をコンパイルできる。
論文参考訳（メタデータ） (2023-11-21T16:43:13Z)
Minigrid & Miniworld: Modular & Customizable Reinforcement Learning Environments for Goal-Oriented Tasks [10.995552002845459]
MinigridおよびMiniworldライブラリは、目標指向の2Dおよび3D環境のスイートを提供する。デザイン哲学、環境の詳細、およびそれらの世界生成APIについて概説する。
論文参考訳（メタデータ） (2023-06-24T01:16:07Z)
Rethinking Hierarchicies in Pre-trained Plain Vision Transformer [76.35955924137986]
マスク付き画像モデリング(MIM)による自己教師付き事前学習型視覚変換器(ViT)は非常に効果的であることが証明されている。カスタマイズされたアルゴリズムは、平易なViTのためにバニラと単純なMAEを使用する代わりに、例えばGreenMIMのような階層的なViTのために慎重に設計されるべきである。本稿では,自己指導型事前学習から階層型アーキテクチャ設計を遠ざける新しいアイデアを提案する。
論文参考訳（メタデータ） (2022-11-03T13:19:23Z)
POGEMA: Partially Observable Grid Environment for Multiple Agents [64.88759709443819]
POGEMAは、部分的に観測可能なマルチエージェントパスフィンディング(PO-MAPF)問題に挑戦するためのサンドボックスである。様々なPO-MAPFに合わせることができ、プランニングと学習のための優れた試験場として機能する。
論文参考訳（メタデータ） (2022-06-22T09:39:50Z)
AdaGrid: Adaptive Grid Search for Link Prediction Training Objective [58.79804082133998]
トレーニングの目的は、モデルの性能と一般化能力に決定的に影響を及ぼす。本稿では,訓練中にエッジメッセージの比率を動的に調整する適応グリッド探索(AdaGrid)を提案する。 AdaGridは、完全検索の9倍の時間効率を保ちながら、モデルの性能を1.9%まで向上させることができることを示す。
論文参考訳（メタデータ） (2022-03-30T09:24:17Z)
Deep Generative Framework for Interactive 3D Terrain Authoring and Manipulation [4.202216894379241]
本稿では,VAEと生成条件GANモデルを組み合わせた新しいランドスケープオーサリングフレームワークを提案する。我々のフレームワークは実世界の地形データセットから潜在空間を学習することで既存の手法の限界を克服しようとする例に基づく手法である。我々はまた、ユーザが最小限の入力で多様な地形を生成できるインタラクティブツールを開発した。
論文参考訳（メタデータ） (2022-01-07T08:58:01Z)
Accelerating Training and Inference of Graph Neural Networks with Fast Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。本稿では,これらのボトルネックを緩和する一連の改良点について述べる。また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文参考訳（メタデータ） (2021-10-16T02:41:35Z)
Taming GANs with Lookahead-Minmax [63.90038365274479]
MNIST, SVHN, CIFAR-10, ImageNetによる実験結果から, Lookahead-minmaxとAdam, Exgradientの併用が明らかとなった。 30倍のパラメータと16倍のミニバッチを使用して、クラスラベルを使わずに12.19のFIDを得ることにより、CIFAR-10上でクラス依存のBigGANのパフォーマンスを上回ります。
論文参考訳（メタデータ） (2020-06-25T17:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。