論文の概要: TimeRL: Efficient Deep Reinforcement Learning with Polyhedral Dependence Graphs
- arxiv url: http://arxiv.org/abs/2501.05408v1
- Date: Thu, 09 Jan 2025 18:05:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 13:59:47.779335
- Title: TimeRL: Efficient Deep Reinforcement Learning with Polyhedral Dependence Graphs
- Title(参考訳): TimeRL:多面的依存グラフを用いた効率的な深層強化学習
- Authors: Pedro F. Silvestre, Peter Pietzuch,
- Abstract要約: TimeRLは、熱心な実行のダイナミズムと、全プログラム最適化とグラフベースの実行のスケジューリングを組み合わせた動的DRLプログラムを実行するシステムである。
我々は、TimeRLが現在のDRLアルゴリズムを既存のDRLシステムよりも最大47$times$高速に実行し、GPUピークメモリを16$times$安くしていることを示す。
- 参考スコア(独自算出の注目度): 0.552480439325792
- License:
- Abstract: Modern deep learning (DL) workloads increasingly use complex deep reinforcement learning (DRL) algorithms that generate training data within the learning loop. This results in programs with several nested loops and dynamic data dependencies between tensors. While DL systems with eager execution support such dynamism, they lack the optimizations and smart scheduling of graph-based execution. Graph-based execution, however, cannot express dynamic tensor shapes, instead requiring the use of multiple static subgraphs. Either execution model for DRL thus leads to redundant computation, reduced parallelism, and less efficient memory management. We describe TimeRL, a system for executing dynamic DRL programs that combines the dynamism of eager execution with the whole-program optimizations and scheduling of graph-based execution. TimeRL achieves this by introducing the declarative programming model of recurrent tensors, which allows users to define dynamic dependencies as intuitive recurrence equations. TimeRL translates recurrent tensors into a polyhedral dependence graph (PDG) with dynamic dependencies as symbolic expressions. Through simple PDG transformations, TimeRL applies whole-program optimizations, such as automatic vectorization, incrementalization, and operator fusion. The PDG also allows for the computation of an efficient program-wide execution schedule, which decides on buffer deallocations, buffer donations, and GPU/CPU memory swapping. We show that TimeRL executes current DRL algorithms up to 47$\times$ faster than existing DRL systems, while using 16$\times$ less GPU peak memory.
- Abstract(参考訳): 現代のディープラーニング(DL)ワークロードでは、学習ループ内でトレーニングデータを生成する複雑な深層学習(DRL)アルゴリズムの利用が増えている。
これにより、複数のネストループとテンソル間の動的データ依存関係を持つプログラムが生成される。
このようなダイナミズムを積極的に実行するDLシステムは、グラフベースの実行の最適化とスマートスケジューリングを欠いている。
しかし、グラフベースの実行は動的テンソル形状を表現できず、代わりに複数の静的部分グラフを使用する必要がある。
これにより、DRLの実行モデルが冗長な計算、並列性の低減、メモリ管理の効率化につながる。
本稿では,動的DRLプログラムの実行システムであるTimeRLについて述べる。
TimeRLは、リカレントテンソルの宣言型プログラミングモデルを導入し、動的依存関係を直感的再帰方程式として定義する。
TimeRLは、繰り返しテンソルを記号表現として動的依存関係を持つ多面的依存グラフ(PDG)に変換する。
単純なPDG変換を通じて、TimeRLは自動ベクトル化、インクリメンタル化、演算子融合などのプログラム全体を最適化する。
PDGはまた、バッファの割当、バッファの寄付、GPU/CPUメモリスワップを決定する効率的なプログラム全体の実行スケジュールの計算を可能にする。
我々は、TimeRLが現在のDRLアルゴリズムを既存のDRLシステムよりも47$\times$高速に実行し、16$\times$少ないGPUピークメモリを使用することを示した。
関連論文リスト
- Automatic Task Parallelization of Dataflow Graphs in ML/DL models [0.0]
本稿では,MLデータフローグラフに固有の並列パスを利用する線形クラスタリング手法を提案する。
我々はONNX形式で入力MLモデルから可読かつ実行可能な並列Pytorch+Pythonコードを生成する。
いくつかのMLグラフの予備結果は、シリアル実行よりも1.9$times$スピードアップである。
論文 参考訳(メタデータ) (2023-08-22T04:54:30Z) - RESPECT: Reinforcement Learning based Edge Scheduling on Pipelined Coral
Edge TPUs [12.952987240366781]
本研究は、最適化アルゴリズムの挙動を学習する強化学習(RL)に基づくスケジューリングフレームワークを提案する。
RLは、実行時のオーバーヘッドを短くすることで、ほぼ最適のスケジューリング結果を生成する。
我々のフレームワークは、商用コンパイラ上での実世界のオンチップランタイム推論速度アップを最大$sim2.5times$で実証しています。
論文 参考訳(メタデータ) (2023-04-10T17:22:12Z) - PiPAD: Pipelined and Parallel Dynamic GNN Training on GPUs [3.3019914257038168]
ダイナミックグラフニューラルネットワーク(DGNN)は,リンク予測やパンデミック予測など,さまざまなリアルタイムアプリケーションに広く応用されている。
DGNNは、かなりの並列計算とデータ再利用の可能性を示すが、メモリアクセスの非効率性とデータ転送オーバーヘッドに悩まされている。
我々は、GPU上でのエンドツーエンドのパフォーマンス最適化のためのトレーニングフレームワークとして、$underlinetextbfPipelined$と$underlinetextbfDGNNのPiPADを提案する。
論文 参考訳(メタデータ) (2023-01-01T12:10:31Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - MSRL: Distributed Reinforcement Learning with Dataflow Fragments [16.867322708270116]
強化学習(RL)は多くのエージェントを訓練するが、リソース集約であり、大規模なGPUクラスタにスケールする必要がある。
我々は,分散RL学習システムであるMindSpore Reinforcement Learning (MSRL)について述べる。
MSRLは、RLアルゴリズムのトレーニングループから並列計算フラグメントに関数をマッピングする、断片化されたデータフローグラフの新たな抽象化を導入している。
論文 参考訳(メタデータ) (2022-10-03T12:34:58Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Efficient Dynamic Graph Representation Learning at Scale [66.62859857734104]
本稿では,学習損失による時間依存性を選択的に表現し,計算の並列性を改善するための効率的な動的グラフ lEarning (EDGE) を提案する。
EDGEは、数百万のノードと数億の時間的イベントを持つ動的グラフにスケールでき、新しい最先端(SOTA)パフォーマンスを実現することができる。
論文 参考訳(メタデータ) (2021-12-14T22:24:53Z) - High-performance symbolic-numerics via multiple dispatch [52.77024349608834]
Symbolics.jlは拡張可能なシンボルシステムで、動的多重ディスパッチを使用してドメインのニーズに応じて振る舞いを変更する。
実装に依存しないアクションでジェネリックapiを形式化することで、システムに最適化されたデータ構造を遡及的に追加できることを示します。
従来の用語書き換えシンプリファイアと電子グラフベースの用語書き換えシンプリファイアをスワップする機能を実証する。
論文 参考訳(メタデータ) (2021-05-09T14:22:43Z) - Accurate, Efficient and Scalable Training of Graph Neural Networks [9.569918335816963]
グラフニューラルネットワーク(GNN)は、グラフ上にノード埋め込みを生成する強力なディープラーニングモデルである。
効率的でスケーラブルな方法でトレーニングを実行することは依然として困難です。
本稿では,最先端のミニバッチ手法と比較して,トレーニング負荷を桁違いに削減する新しい並列トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-05T22:06:23Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - L$^2$-GCN: Layer-Wise and Learned Efficient Training of Graph
Convolutional Networks [118.37805042816784]
グラフ畳み込みネットワーク(GCN)は、多くのアプリケーションで人気が高まっているが、大きなグラフデータセットをトレーニングするのは依然として難しい。
本稿では,GCN (L-GCN) のための新しいレイヤワイドトレーニングフレームワークを提案する。
実験の結果、L-GCNは少なくとも1桁の精度で最先端よりも高速であり、メモリ使用量はデータセットのサイズに依存しないことがわかった。
論文 参考訳(メタデータ) (2020-03-30T16:37:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。