論文の概要: Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for
DNN Workloads
- arxiv url: http://arxiv.org/abs/2007.04069v1
- Date: Wed, 8 Jul 2020 12:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 13:22:32.552948
- Title: Auto-MAP: A DQN Framework for Exploring Distributed Execution Plans for
DNN Workloads
- Title(参考訳): Auto-MAP: DNNワークロードの分散実行計画を探索するDQNフレームワーク
- Authors: Siyu Wang, Yi Rong, Shiqing Fan, Zhen Zheng, LanSong Diao, Guoping
Long, Jun Yang, Xiaoyong Liu, Wei Lin
- Abstract要約: Auto-MAPはワークロードの分散実行計画を探索するフレームワークである。
ディープラーニングモデルのIRレベルの強化学習を通じて、高速な並列化戦略を自動的に発見することができる。
評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
- 参考スコア(独自算出の注目度): 11.646744408920764
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The last decade has witnessed growth in the computational requirements for
training deep neural networks. Current approaches (e.g., data/model
parallelism, pipeline parallelism) parallelize training tasks onto multiple
devices. However, these approaches always rely on specific deep learning
frameworks and requires elaborate manual design, which make it difficult to
maintain and share between different type of models. In this paper, we propose
Auto-MAP, a framework for exploring distributed execution plans for DNN
workloads, which can automatically discovering fast parallelization strategies
through reinforcement learning on IR level of deep learning models. Efficient
exploration remains a major challenge for reinforcement learning. We leverage
DQN with task-specific pruning strategies to help efficiently explore the
search space including optimized strategies. Our evaluation shows that Auto-MAP
can find the optimal solution in two hours, while achieving better throughput
on several NLP and convolution models.
- Abstract(参考訳): 過去10年間、ディープニューラルネットワークをトレーニングするための計算要件が増加してきた。
現在のアプローチ(データ/モデル並列性、パイプライン並列性など)は、トレーニングタスクを複数のデバイスに並列化する。
しかしながら、これらのアプローチは常に特定のディープラーニングフレームワークに依存しており、詳細な手作業による設計を必要とするため、異なるタイプのモデルのメンテナンスと共有が難しい。
本稿では,DNNワークロードの分散実行計画を探索するフレームワークであるAuto-MAPを提案する。
効率的な探索は、強化学習の大きな課題である。
DQNとタスク固有のプルーニング戦略を利用して、最適化された戦略を含む検索空間を効率的に探索する。
評価の結果,Auto-MAPは複数のNLPおよび畳み込みモデルにおいて,より優れたスループットを実現しつつ,最適解を2時間以内に見つけることができることがわかった。
関連論文リスト
- Auto-Train-Once: Controller Network Guided Automatic Network Pruning from Scratch [72.26822499434446]
オートトレインオース (Auto-Train-Once, ATO) は、DNNの計算コストと記憶コストを自動的に削減するために設計された、革新的なネットワークプルーニングアルゴリズムである。
総合的な収束解析と広範な実験を行い,本手法が様々なモデルアーキテクチャにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2024-03-21T02:33:37Z) - Improving Automatic Parallel Training via Balanced Memory Workload
Optimization [36.87527680184956]
トランスフォーマーモデルは、様々なアプリケーションドメインで最先端のパフォーマンスを達成するための主要なアプローチとして現れています。
本稿では,複数の並列性を持つ次元を統合し,最も効率的なハイブリッド並列性戦略を自動的に識別する新しいシステムフレームワークであるGalvatron-BMWを提案する。
異なるTransformerモデルを用いた評価では,Galvatron-BMWがGPUメモリ制約の異なる分散トレーニングを自動化できることが示されている。
論文 参考訳(メタデータ) (2023-07-05T05:28:38Z) - DeepSeq: Deep Sequential Circuit Learning [10.402436619244911]
回路表現学習は電子設計自動化(EDA)分野における有望な研究方向である。
既存のソリューションは組合せ回路のみをターゲットにしており、その応用は著しく制限されている。
シーケンシャルネットリストのための新しい表現学習フレームワークであるDeepSeqを提案する。
論文 参考訳(メタデータ) (2023-02-27T09:17:35Z) - TAP: Accelerating Large-Scale DNN Training Through Tensor Automatic
Parallelisation [19.009600866053923]
本稿では,最適なデータとテンソル並列スケジュールを自動的に検索するモデル並列化フレームワークTAPを提案する。
実験によると、TAPは最先端の自動並列処理フレームワークよりも20ドルから160ドル高速である。
論文 参考訳(メタデータ) (2023-02-01T05:22:28Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - DistIR: An Intermediate Representation and Simulator for Efficient
Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。
本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文 参考訳(メタデータ) (2021-11-09T21:32:51Z) - Elastic Architecture Search for Diverse Tasks with Different Resources [87.23061200971912]
本研究では,異なるリソースを持つ多様なタスクを効率的に配置する上で,クラス群に対応するリソース制約や関心のタスクをテスト時に動的に指定する,新たな課題について検討する。
従来のNASアプローチでは、全てのクラスのアーキテクチャを同時に設計することを模索しており、これはいくつかの個別のタスクに最適ではないかもしれない。
本稿では、様々なリソース制約のある多様なタスクに対して、実行時に即時特殊化を可能にする、Elastic Architecture Search (EAS)と呼ばれる斬新で一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-03T00:54:27Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - GAKP: GRU Association and Kalman Prediction for Multiple Object Tracking [8.559199703957393]
マルチオブジェクトトラッキング(MOT)は、ビデオ監視、インテリジェント小売、スマートシティなど、多くの現実世界のアプリケーションで有用かつ困難なタスクでした。
本稿では,予測のための自動チューニングカルマン法とゲートリカレントユニット(gru)を統合し,少量のトレーニングデータで近似最適化を実現する新しい追跡手法を提案する。
論文 参考訳(メタデータ) (2020-12-28T15:52:24Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Auto-PyTorch Tabular: Multi-Fidelity MetaLearning for Efficient and
Robust AutoDL [53.40030379661183]
Auto-PyTorchは、完全に自動化されたディープラーニング(AutoDL)を実現するフレームワーク
ディープニューラルネットワーク(DNN)のウォームスタートとアンサンブルのためのマルチフィデリティ最適化とポートフォリオ構築を組み合わせる。
Auto-PyTorchは、いくつかの最先端の競合製品よりもパフォーマンスが良いことを示す。
論文 参考訳(メタデータ) (2020-06-24T15:15:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。