論文の概要: POPGym: Benchmarking Partially Observable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2303.01859v1
- Date: Fri, 3 Mar 2023 11:25:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-06 15:25:10.342291
- Title: POPGym: Benchmarking Partially Observable Reinforcement Learning
- Title(参考訳): POPGym: 部分的に観察可能な強化学習のベンチマーク
- Authors: Steven Morad, Ryan Kortvelesy, Matteo Bettini, Stephan Liwicki, and
Amanda Prorok
- Abstract要約: 部分観察可能なプロセスジャム(POPGym)について紹介する。
POPGymは、15の部分的に観測可能な環境の多様なコレクションを含む2部構成のライブラリである。
人気の高いRLlibフレームワーク上に,高レベルのメモリAPIとメモリベースラインを実装しています。
- 参考スコア(独自算出の注目度): 7.435039755799297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real world applications of Reinforcement Learning (RL) are often partially
observable, thus requiring memory. Despite this, partial observability is still
largely ignored by contemporary RL benchmarks and libraries. We introduce
Partially Observable Process Gym (POPGym), a two-part library containing (1) a
diverse collection of 15 partially observable environments, each with multiple
difficulties and (2) implementations of 13 memory model baselines -- the most
in a single RL library. Existing partially observable benchmarks tend to fixate
on 3D visual navigation, which is computationally expensive and only one type
of POMDP. In contrast, POPGym environments are diverse, produce smaller
observations, use less memory, and often converge within two hours of training
on a consumer-grade GPU. We implement our high-level memory API and memory
baselines on top of the popular RLlib framework, providing plug-and-play
compatibility with various training algorithms, exploration strategies, and
distributed training paradigms. Using POPGym, we execute the largest comparison
across RL memory models to date. POPGym is available at
https://github.com/proroklab/popgym.
- Abstract(参考訳): 実世界のRL(Reinforcement Learning)の応用はしばしば部分的に観測可能であり、メモリを必要とする。
それにもかかわらず、部分的な可観測性は現代のRLベンチマークやライブラリでは無視されている。
本稿では,(1)15個の部分観測可能な環境の多種多様なコレクション,(2)13個のメモリモデルベースラインの実装を含む2部構成のライブラリであるPartially Observable Process Gym(POPGym)を紹介する。
既存の部分観測可能なベンチマークは、3Dビジュアルナビゲーションに固定される傾向があり、計算コストは高く、POMDPは1種類しかない。
対照的に、POPGym環境は多様であり、より小さな観測結果を生成し、メモリ使用を少なくし、コンシューマグレードのGPUで2時間以内に収束することが多い。
我々はRLlibフレームワーク上に高レベルのメモリAPIとメモリベースラインを実装し、様々なトレーニングアルゴリズム、探索戦略、分散トレーニングパラダイムとのプラグアンドプレイ互換性を提供します。
POPGymを用いて、これまでで最大のRLメモリモデルの比較を行う。
POPGymはhttps://github.com/proroklab/popgym.comで入手できる。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - JORA: JAX Tensor-Parallel LoRA Library for Retrieval Augmented Fine-Tuning [16.86356520836045]
本稿では,Llama-2モデルのPEFT互換微調整のための新しいフレームワークについて紹介する。
我々のフレームワークは、JAXのジャスト・イン・タイム(JIT)コンパイルと、効率的なリソース管理のためにテンソルシャーディングを独自に利用しています。
実験では,Hugging Face/DeepSpeed実装を4GPUで実装するのに対して,GPUあたりのVRAMは半分以下であるのに対して,ランタイムでは12倍以上の改善が見られた。
論文 参考訳(メタデータ) (2024-03-17T23:02:04Z) - RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-18T07:17:09Z) - SWARM Parallelism: Training Large Models Can Be Surprisingly
Communication-Efficient [69.61083127540776]
ディープラーニングアプリケーションは、数十億のパラメータを持つ大きなモデルを使用することの恩恵を受ける。
これらのモデルのトレーニングは、特殊なHPCクラスタを必要とするため、非常に高価である。
安価な"プリエンプティブル"インスタンスを使用するか、あるいは複数のリージョンから既存のリソースをプールする。
論文 参考訳(メタデータ) (2023-01-27T18:55:19Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Recurrent Model-Free RL is a Strong Baseline for Many POMDPs [73.39666827525782]
メタRL、ロバストRL、RLの一般化など、RLの多くの問題はPOMDPとしてキャストできる。
理論上は、リカレントニューラルネットワークなどのメモリによるモデルフリーRLの増大は、あらゆるタイプのPOMDPを解決するための一般的なアプローチを提供する。
以前の研究で、そのような繰り返しモデルなしのRL法は、特定のタイプのPOMDP向けに設計された、より特殊なアルゴリズムよりもパフォーマンスが悪くなっていることが判明した。
論文 参考訳(メタデータ) (2021-10-11T07:09:14Z) - Parallel Actors and Learners: A Framework for Generating Scalable RL
Implementations [14.432131909590824]
強化学習(Reinforcement Learning, RL)は、ロボット工学、ゲーム、医療などの応用分野において大きな成功を収めている。
現在の実装は、不規則なメモリアクセスや同期オーバーヘッドといった問題により、パフォーマンスが劣っている。
マルチコアシステム上でスケーラブルな強化学習を実現するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-03T21:00:53Z) - RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文 参考訳(メタデータ) (2021-02-08T15:42:48Z) - Scaling Semantic Segmentation Beyond 1K Classes on a Single GPU [87.48110331544885]
既存のセマンティックセグメンテーションモデルのトレーニングとスケールアップのための新しいトレーニング手法を提案する。
我々は、LVISとCOCOアノテーションからブートストラップした1284クラスのデータセットに対するアプローチの明確な利点を示し、DeeplabV3+モデルの3倍のmIoUを実現した。
論文 参考訳(メタデータ) (2020-12-14T13:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。