論文の概要: RLtools: A Fast, Portable Deep Reinforcement Learning Library for
Continuous Control
- arxiv url: http://arxiv.org/abs/2306.03530v2
- Date: Tue, 14 Nov 2023 20:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-16 20:10:39.570080
- Title: RLtools: A Fast, Portable Deep Reinforcement Learning Library for
Continuous Control
- Title(参考訳): RLtools: 継続的制御のための高速でポータブルなディープ強化学習ライブラリ
- Authors: Jonas Eschmann, Dario Albani, Giuseppe Loianno
- Abstract要約: RLtoolsは依存性のない、ヘッダのみの純粋なC++ライブラリで、深い教師付きと強化学習のためのライブラリである。
RLtoolsは、Pendulum-v1のような一般的なRL問題を解決することができる。
我々の知る限り、RLtoolsはマイクロコントローラ上でディープRLアルゴリズムを直接トレーニングする最初のデモンストレーションを可能にします。
- 参考スコア(独自算出の注目度): 8.159171440455824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (RL) has been demonstrated to yield capable
agents and control policies in several domains but is commonly plagued by
prohibitively long training times. Additionally, in the case of continuous
control problems, the applicability of learned policies on real-world embedded
devices is limited due to the lack of real-time guarantees and portability of
existing deep learning libraries. To address these challenges, we present
RLtools, a dependency-free, header-only, pure C++ library for deep supervised
and reinforcement learning. Leveraging the template meta-programming
capabilities of recent C++ standards, we provide composable components that can
be tightly integrated by the compiler. Its novel architecture allows RLtools to
be used seamlessly on a heterogeneous set of platforms, from HPC clusters over
workstations and laptops to smartphones, smartwatches, and microcontrollers.
Specifically, due to the tight integration of the RL algorithms with simulation
environments, RLtools can solve popular RL problems like the Pendulum-v1
swing-up about 7 to 15 times faster in terms of wall-clock training time
compared to other popular RL frameworks when using TD3. We also provide a
low-overhead and parallelized interface to the MuJoCo simulator, showing that
our PPO implementation achieves state of the art returns in the Ant-v4
environment while being 25%-30% faster in terms of wall-clock training time.
Finally, we also benchmark the policy inference on a diverse set of
microcontrollers and show that in most cases our optimized inference
implementation is much faster than even the manufacturer's DSP libraries. To
the best of our knowledge, RLtools enables the first-ever demonstration of
training a deep RL algorithm directly on a microcontroller, giving rise to the
field of TinyRL. The source code is available through our project page at
https://rl.tools.
- Abstract(参考訳): 深層強化学習(Deep Reinforcement Learning, RL)は、いくつかのドメインで有能なエージェントとコントロールポリシーを付与することが実証されているが、一般的には、非常に長い訓練時間によって悩まされている。
さらに、継続的制御問題の場合、既存のディープラーニングライブラリのリアルタイム保証やポータビリティの欠如により、実世界の組み込みデバイスに対する学習ポリシーの適用性が制限される。
これらの課題に対処するため、我々は依存性のない、ヘッダのみの純粋なC++ライブラリであるRLtoolsを紹介した。
最近のc++標準のテンプレートメタプログラミング機能を活用することで、コンパイラによって強く統合できる構成可能なコンポーネントを提供します。
その新しいアーキテクチャは、ワークステーションやラップトップ上のHPCクラスタからスマートフォン、スマートウォッチ、マイクロコントローラに至るまで、RLtoolを多種多様なプラットフォーム上でシームレスに使用できる。
具体的には、シミュレーション環境とのRLアルゴリズムの密接な統合により、RLtoolsは、TD3を使用する場合の他の一般的なRLフレームワークと比較して、ウォールクロックトレーニング時間の約7~15倍の速度でPendulum-v1のスウィングアップのような一般的なRL問題を解決することができる。
また,MuJoCoシミュレータの低オーバヘッド・並列化インタフェースを提供し,PPO実装がAnt-v4環境におけるアートリターンの状態を達成し,ウォールクロックのトレーニング時間において25%~30%高速であることを示す。
最後に、様々なマイクロコントローラのポリシー推論をベンチマークし、ほとんどの場合、最適化された推論実装はメーカーのDSPライブラリよりもはるかに高速であることを示す。
我々の知る限り、RLtoolsはマイクロコントローラ上でディープRLアルゴリズムを直接トレーニングする最初のデモンストレーションを可能にし、TinyRLの分野を生み出します。
ソースコードは、https://rl.tools.orgのプロジェクトページから入手できます。
関連論文リスト
- XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library [18.603206638756056]
XuanCeは総合的に統合された深層強化学習(DRL)ライブラリである。
XuanCeは40以上の古典DRLとマルチエージェントDRLアルゴリズムを含む幅広い機能を提供している。
XuanCeはオープンソースで、https://agi-brain.com/agi-brain/xuance.gitでアクセスできる。
論文 参考訳(メタデータ) (2023-12-25T14:45:39Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - ElegantRL-Podracer: Scalable and Elastic Library for Cloud-Native Deep
Reinforcement Learning [141.58588761593955]
クラウドネイティブな深層強化学習のためのライブラリElegantRL-podracerを提案する。
数百万のコアを効率的にサポートし、複数のレベルで大規模な並列トレーニングを実行する。
低レベルでは、各ポッドは1つのGPUで7,000近いGPUコアをフル活用することで、エージェントと環境のインタラクションを並列にシミュレートする。
論文 参考訳(メタデータ) (2021-12-11T06:31:21Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads [4.575381867242508]
RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
論文 参考訳(メタデータ) (2021-02-08T15:42:48Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z) - MushroomRL: Simplifying Reinforcement Learning Research [60.70556446270147]
MushroomRLはオープンソースのPythonライブラリで、強化学習(RL)実験の実装と実行を簡単にするために開発された。
他の利用可能なライブラリと比較して、MushroomRLは、新しいRL方法論の実装とテストの労力を最小限に抑えるために、包括的で柔軟なフレームワークを提供することを目的として作られた。
論文 参考訳(メタデータ) (2020-01-04T17:23:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。