論文の概要: Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator
Scheduling
- arxiv url: http://arxiv.org/abs/2104.13997v2
- Date: Fri, 30 Apr 2021 14:41:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 13:01:27.075696
- Title: Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator
Scheduling
- Title(参考訳): マルチテナントDNNアクセラレータスケジューリングのためのドメイン固有遺伝的アルゴリズム
- Authors: Sheng-Chun Kao, Tushar Krishna
- Abstract要約: 複数のサブアクセラレータコア/チップを備えた大型アクセラレータを構築する傾向が強まっている。
この研究は、このようなアクセラレータでマルチテナントをサポートする問題を検討する。
我々は,G#アコストム演算子と呼ばれる特殊な遺伝的アルゴリズムを開発し,構造的サンプル効率探索を実現する。
- 参考スコア(独自算出の注目度): 3.8530020696501794
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Deep Learning continues to drive a variety of applications in datacenters
and HPC, there is a growing trend towards building large accelerators with
several sub-accelerator cores/chiplets. This work looks at the problem of
supporting multi-tenancy on such accelerators. In particular, we focus on the
problem of mapping layers from several DNNs simultaneously on an accelerator.
Given the extremely large search space, we formulate the search as an
optimization problem and develop a specialized genetic algorithm called G#
withcustom operators to enable structured sample-efficient exploration. We
quantitatively compare G# with several common heuristics, state-of-the-art
optimization methods, and reinforcement learning methods across different
accelerator set-tings (large/small accelerators) and different sub-accelerator
configurations (homogeneous/heterogeneous), and observeG# can consistently find
better solutions. Further, to enable real-time scheduling, we also demonstrate
a method to generalize the learnt schedules and transfer them to the next batch
of jobs, reducing schedule compute time to near zero.
- Abstract(参考訳): Deep LearningはデータセンタやHPCでさまざまなアプリケーションを推進し続けているため、いくつかのサブアクセラレータコア/チップレットを備えた大規模アクセラレータの構築が増えている。
本研究は, 加速器におけるマルチテナント支援の問題について考察する。
特に、複数のDNNからのレイヤを同時にアクセラレーターにマッピングする問題に焦点を当てる。
非常に大きな探索空間を考えると、探索を最適化問題として定式化し、g# withcustom operatorと呼ばれる特殊な遺伝的アルゴリズムを開発し、構造化されたサンプル効率の探索を可能にする。
我々は、G#をいくつかの一般的なヒューリスティック、最先端最適化方法、異なるアクセラレータセットティング(大型/小型アクセラレータ)と異なるサブアクセラレータ構成(均一/均一)の強化学習手法と定量的に比較する。
さらに,リアルタイムスケジューリングを実現するために,学習スケジュールを一般化し,次のジョブのバッチに転送し,スケジュール計算時間をほぼゼロにする手法も示す。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - AcceleratedLiNGAM: Learning Causal DAGs at the speed of GPUs [57.12929098407975]
既存の因果探索法を効率的に並列化することにより,数千次元まで拡張可能であることを示す。
具体的には、DirectLiNGAMの因果順序付けサブプロデューサに着目し、GPUカーネルを実装して高速化する。
これにより、遺伝子介入による大規模遺伝子発現データに対する因果推論にDirectLiNGAMを適用することで、競争結果が得られる。
論文 参考訳(メタデータ) (2024-03-06T15:06:11Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Demystifying Map Space Exploration for NPUs [4.817475305740601]
Map Space Explorationは、Deep Neural Network(DNN)モデルの最適化されたマッピングを見つける問題である。
我々は、異なるマッパーが活用する検索技術について、第一級のリンゴとアプリの比較を行う。
次に,既存のマッパーを拡張できる2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2022-10-07T17:58:45Z) - Flipping the switch on local exploration: Genetic Algorithms with
Reversals [0.0]
著者らは、勾配のない探索手法が離散領域における最適解を提供するのに適していることを示した。
また、複数のローカル検索を使用することで、ローカル検索のパフォーマンスが向上することを示した。
提案したGA変種は,提案した問題を含む全てのベンチマークにおいて,最小平均コストであり,ICが構成成分よりも優れた性能を発揮することが観察された。
論文 参考訳(メタデータ) (2022-02-02T08:27:11Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - Multi-task Over-the-Air Federated Learning: A Non-Orthogonal
Transmission Approach [52.85647632037537]
複数の学習タスクがエッジサーバ(ES)の協調の下でデータ収集および学習モデルのためのエッジデバイスを共有するマルチタスク・オーバーテア・フェデレーション・ラーニング(MOAFL)フレームワークを提案する。
収束解析と数値計算の両方の結果から,MOAFLフレームワークは学習性能を著しく低下させることなく,複数のタスクのアップリンク帯域幅の消費を大幅に削減できることが示された。
論文 参考訳(メタデータ) (2021-06-27T13:09:32Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z) - The Programming of Deep Learning Accelerators as a Constraint
Satisfaction Problem [0.0]
行列乗算のような複雑な命令で演算子を効率的に実装する新しい手法を提案する。
スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。
baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動生成できることが示されている。
論文 参考訳(メタデータ) (2021-04-10T10:39:47Z) - Gradient Coding with Dynamic Clustering for Straggler-Tolerant
Distributed Learning [55.052517095437]
勾配降下(GD)は、複数の労働者にデータセットを分散することで学習タスクの並列化に広く用いられている。
分散同期gdにおけるイテレーション完了時間ごとの重要なパフォーマンスボトルネックは$straggling$ workersである。
コード化された分散技術は、最近ストラグラーを緩和し、労働者に冗長な計算を割り当てることでgdイテレーションを高速化するために導入された。
本稿では,従来のトラグリング動作に依存する可能性のあるコードの中から,冗長なデータを労働者に割り当てて選択する動的GC方式を提案する。
論文 参考訳(メタデータ) (2021-03-01T18:51:29Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。