論文の概要: Sample Efficient Ensemble Learning with Catalyst.RL
- arxiv url: http://arxiv.org/abs/2003.14210v2
- Date: Tue, 7 Apr 2020 22:17:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:05:21.051822
- Title: Sample Efficient Ensemble Learning with Catalyst.RL
- Title(参考訳): Catalyst.RL を用いたサンプル効率的なアンサンブル学習
- Authors: Sergey Kolesnikov and Valentin Khrulkov
- Abstract要約: 本稿では,再現性およびサンプル高効率強化学習(RL)研究のためのオープンソースフレームワークであるCatalyst.RLを提案する。
Catalyst.RLの主な特徴は、大規模非同期分散トレーニング、様々なRLアルゴリズムの効率的な実装、nステップの戻り値、値分布、双曲強化学習などの補助的なトリックである。
- 参考スコア(独自算出の注目度): 13.726637149320272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Catalyst.RL, an open-source PyTorch framework for reproducible and
sample efficient reinforcement learning (RL) research. Main features of
Catalyst.RL include large-scale asynchronous distributed training, efficient
implementations of various RL algorithms and auxiliary tricks, such as n-step
returns, value distributions, hyperbolic reinforcement learning, etc. To
demonstrate the effectiveness of Catalyst.RL, we applied it to a physics-based
reinforcement learning challenge "NeurIPS 2019: Learn to Move -- Walk Around"
with the objective to build a locomotion controller for a human musculoskeletal
model. The environment is computationally expensive, has a high-dimensional
continuous action space and is stochastic. Our team took the 2nd place,
capitalizing on the ability of Catalyst.RL to train high-quality and
sample-efficient RL agents in only a few hours of training time. The
implementation along with experiments is open-sourced so results can be
reproduced and novel ideas tried out.
- Abstract(参考訳): 本稿では、再現性およびサンプル高効率強化学習(RL)研究のためのオープンソースのPyTorchフレームワークであるCatalyst.RLを提案する。
Catalyst.RLの主な特徴は、大規模非同期分散トレーニング、様々なRLアルゴリズムの効率的な実装、nステップの戻り値、値分布、双曲強化学習などの補助的なトリックである。
Catalyst.RL の有効性を実証するため,人間の筋骨格モデルのための移動制御装置を構築することを目的として,物理学に基づく強化学習課題 "NeurIPS 2019: Learn to Move -- Walk Around" に適用した。
この環境は計算コストが高く、高次元の連続的な行動空間を持ち、確率的である。
我々のチームは2位となり、Catalyst.RLの高性能で試料効率のよいRLエージェントをわずか数時間で訓練できる能力を活用しました。
実験とともに実装はオープンソースなので、成果を再現し、新しいアイデアを試すことができる。
関連論文リスト
- A Real-World Quadrupedal Locomotion Benchmark for Offline Reinforcement
Learning [27.00483962026472]
現実的な四足歩行データセットにおける11のオフライン強化学習アルゴリズムをベンチマークした。
実験の結果,ORLアルゴリズムはモデルフリーのRLに比べて競争性能がよいことがわかった。
提案するベンチマークは,実世界の歩行作業におけるORLアルゴリズムの性能をテスト・評価するための開発プラットフォームとして機能する。
論文 参考訳(メタデータ) (2023-09-13T13:18:29Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand
Cores [11.311766565113922]
本稿では,多種多様なアプリケーションを対象とした実践的RLトレーニングを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的な分散RLシステムReaLly Scalable RL(SRL)を開発した。
SRLは、そのような大規模なRL実験を行った最初の学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - Learning to Optimize for Reinforcement Learning [79.03249959636776]
ゼロから強化学習を行うエージェントを学習することは可能であることを示す。
おもちゃのタスクでしか訓練されないが、我々の学習はブラックスの複雑なタスクに一般化することができる。
論文 参考訳(メタデータ) (2023-02-03T00:11:02Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - POAR: Efficient Policy Optimization via Online Abstract State
Representation Learning [6.171331561029968]
状態表現学習(SRL)は,複雑な感覚データからタスク関連特徴を低次元状態に符号化する。
我々は、SRLの解釈を改善するために、専門家のデモンストレーションを活用するために、ドメイン類似と呼ばれる新しいSRLを導入する。
我々はPOARを実証的に検証し、高次元のタスクを効率的に処理し、スクラッチから直接実生活ロボットの訓練を容易にする。
論文 参考訳(メタデータ) (2021-09-17T16:52:03Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Auto-Agent-Distiller: Towards Efficient Deep Reinforcement Learning
Agents via Neural Architecture Search [14.292072505007974]
本稿では,様々なタスクに対して最適なDRLエージェントを自動検索するAuto-Agent-Distiller (A2D) フレームワークを提案する。
我々は,バニラNASがDRLトレーニング安定性のばらつきが大きいため,最適なエージェントの探索に容易に失敗できることを実証した。
そこで我々は,教師エージェントのアクターと評論家の両方から知識を抽出し,探索プロセスを安定化し,探索エージェントの最適性を向上する新しい蒸留機構を開発する。
論文 参考訳(メタデータ) (2020-12-24T04:07:36Z) - Learning to Prune Deep Neural Networks via Reinforcement Learning [64.85939668308966]
PuRLは、ニューラルネットワークのプルーニングのためのディープ強化学習ベースのアルゴリズムである。
現在の最先端の手法に匹敵する幅と精度を実現している。
論文 参考訳(メタデータ) (2020-07-09T13:06:07Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。