論文の概要: RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads
- arxiv url: http://arxiv.org/abs/2102.04285v1
- Date: Mon, 8 Feb 2021 15:42:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-09 15:19:03.445343
- Title: RL-Scope: Cross-Stack Profiling for Deep Reinforcement Learning
Workloads
- Title(参考訳): RL-Scope: 深層強化学習ワークロードのためのクロススタックプロファイリング
- Authors: James Gleeson, Srivatsan Krishnan, Moshe Gabel, Vijay Janapa Reddi,
Eyal de Lara, Gennady Pekhimenko
- Abstract要約: RL-Scopeは、低レベルのCPU/GPUリソース使用量を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラである。
本稿では,RL-Scopeの実用性について,詳細なケーススタディを通して紹介する。
- 参考スコア(独自算出の注目度): 4.575381867242508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RL has made groundbreaking advancements in robotic, datacenter managements
and other applications. Unfortunately, system-level bottlenecks in RL workloads
are poorly understood; we observe fundamental structural differences in RL
workloads that make them inherently less GPU-bound than supervised learning
(SL) including gathering training data in simulation, high-level code that
frequently transitions to ML backends, and smaller neural networks.
To explain where training time is spent in RL workloads, we propose RL-Scope,
a cross-stack profiler that scopes low-level CPU/GPU resource usage to
high-level algorithmic operations, and provides accurate insights by correcting
for profiling overhead. We demonstrate RL-Scope's utility through in-depth case
studies. First, we compare RL frameworks to quantify the effects of fundamental
design choices behind ML backends. Next, we survey how training bottlenecks
change as we consider different simulators and RL algorithms. Finally, we
profile a scale-up workload and demonstrate that GPU utilization metrics
reported by commonly-used tools dramatically inflate GPU usage, whereas
RL-Scope reports true GPU-bound time. RL-Scope is an open-source tool available
at https://github.com/UofT-EcoSystem/rlscope .
- Abstract(参考訳): RLは、ロボティクス、データセンター管理、その他のアプリケーションで画期的な進歩を遂げました。
シミュレーションでトレーニングデータを集めること、MLバックエンドに頻繁に移行する高レベルのコード、そしてより小さなニューラルネットワークを含む、本質的にGPUに縛られた教師付き学習(SL)よりも少ないRLワークロードの基本的な構造的な違いを観察します。
RLワークロードのトレーニング時間を説明するために、低レベルのCPU/GPUリソースの使用を高レベルのアルゴリズム操作にスコープするクロススタックプロファイラであるRL-Scopeを提案し、オーバーヘッドのプロファイリングを修正して正確なインサイトを提供する。
RL-Scopeの有用性を詳細なケーススタディで実証します。
まず、RLフレームワークを比較し、MLバックエンドの背後にある基本的な設計選択の影響を定量化する。
次に,異なるシミュレータとrlアルゴリズムを考えることで,トレーニングボトルネックがどのように変化するかを検討する。
最後に、スケールアップワークロードをプロファイリングし、一般的に使用されているツールによって報告されたGPU利用メトリクスがGPU使用を劇的に拡大するのに対して、RL-ScopeはGPUの真のタイムを報告する。
RL-Scopeはオープンソースのツールで、https://github.com/UofT-EcoSystem/rlscope で利用できます。
関連論文リスト
- ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - Open RL Benchmark: Comprehensive Tracked Experiments for Reinforcement
Learning [41.971465819626005]
我々は、完全に追跡されたRL実験のセットであるOpen RL Benchmarkを紹介する。
Open RL Benchmarkはコミュニティ主導で、誰でもダウンロード、使用、データへのコントリビューションが可能です。
それぞれの実験が正確に再現可能であることを保証するため、特別に注意が払われる。
論文 参考訳(メタデータ) (2024-02-05T14:32:00Z) - SRL: Scaling Distributed Reinforcement Learning to Over Ten Thousand Cores [13.948640763797776]
本稿では,RLトレーニングアプリケーションを汎用フレームワークに統合する,RLトレーニングのデータフローに関する新しい抽象化を提案する。
スケーラブルで効率的で分散的なRLシステムであるReaLly scalableRLを開発した。
SRLは15k以上のCPUコアでRL実験を大規模に実施した初めての学術コミュニティである。
論文 参考訳(メタデータ) (2023-06-29T05:16:25Z) - RL$^3$: Boosting Meta Reinforcement Learning via RL inside RL$^2$ [12.111848705677142]
メタRLへの入力において、従来のRLを通してタスク毎に学習されるアクション値を含むハイブリッドアプローチであるRL$3$を提案する。
RL$3$は、RL$2$と比較して、短期的にはデータ効率を保ちながら、長期的には累積的な報酬を多く得ており、アウト・オブ・ディストリビューション・タスクよりも一般化されていることを示す。
論文 参考訳(メタデータ) (2023-06-28T04:16:16Z) - A Survey of Meta-Reinforcement Learning [69.76165430793571]
我々は,メタRLと呼ばれるプロセスにおいて,機械学習問題自体として,より優れたRLアルゴリズムを開発した。
本稿では,タスク分布の存在と各タスクに利用可能な学習予算に基づいて,高レベルでメタRL研究をクラスタ化する方法について議論する。
RL実践者のための標準ツールボックスにメタRLを組み込むことの道程について,オープンな問題を提示することによって,結論を下す。
論文 参考訳(メタデータ) (2023-01-19T12:01:41Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - LCRL: Certified Policy Synthesis via Logically-Constrained Reinforcement
Learning [78.2286146954051]
LCRLは未知決定プロセス(MDP)上でのモデルフリー強化学習(RL)アルゴリズムを実装している
本稿では,LCRLの適用性,使いやすさ,拡張性,性能を示すケーススタディを提案する。
論文 参考訳(メタデータ) (2022-09-21T13:21:00Z) - ShinRL: A Library for Evaluating RL Algorithms from Theoretical and
Practical Perspectives [11.675763847424786]
本稿では、強化学習(RL)アルゴリズムを評価するためのオープンソースのライブラリであるShinRLを紹介する。
ShinRLは、RLアルゴリズムの振る舞いを掘り下げるためのメトリクスを計算することができるRL環境インターフェースを提供する。
ShinRLのこれらの2つの特徴を組み合わせることで、深層Q学習の振る舞いをより容易に分析できることを示す。
論文 参考訳(メタデータ) (2021-12-08T05:34:46Z) - RL-DARTS: Differentiable Architecture Search for Reinforcement Learning [62.95469460505922]
我々は、強化学習(RL)における微分可能なアーキテクチャ探索(DARTS)の最初の応用の1つであるRL-DARTSを紹介する。
画像エンコーダをDARTSスーパーネットに置き換えることにより、検索方法はサンプリング効率が高く、余分な計算資源が最小限必要であり、また、既存のコードに小さな変更を加える必要がなく、オフ・ポリティクスとオン・ポリティクスのRLアルゴリズムとも互換性がある。
スーパーネットはより優れたセルを徐々に学習し、手作業で設計したポリシーに対して高い競争力を持つ代替アーキテクチャへとつながり、RLポリシーの以前の設計選択も検証できることを示す。
論文 参考訳(メタデータ) (2021-06-04T03:08:43Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z) - RL Unplugged: A Suite of Benchmarks for Offline Reinforcement Learning [108.9599280270704]
オフラインのRL手法を評価・比較するためのRL Unpluggedというベンチマークを提案する。
RL Unpluggedにはゲームやシミュレートされたモーター制御問題を含むさまざまな領域のデータが含まれている。
本論文で提示した全タスクのデータと,全アルゴリズムをオープンソースとして公開する。
論文 参考訳(メタデータ) (2020-06-24T17:14:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。