論文の概要: The Programming of Deep Learning Accelerators as a Constraint
Satisfaction Problem
- arxiv url: http://arxiv.org/abs/2104.04731v2
- Date: Tue, 13 Apr 2021 06:16:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 11:13:00.712615
- Title: The Programming of Deep Learning Accelerators as a Constraint
Satisfaction Problem
- Title(参考訳): 制約満足度問題としてのディープラーニング加速器のプログラミング
- Authors: Dennis Rieber, Axel Acosta, Holger Fr\"oning
- Abstract要約: 行列乗算のような複雑な命令で演算子を効率的に実装する新しい手法を提案する。
スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。
baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動生成できることが示されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of Deep Artificial Neural Networks (DNNs) in many domains created
a rich body of research concerned with hardware accelerators for
compute-intensive DNN operators. However, implementing such operators
efficiently with complex instructions such as matrix multiply is a task not yet
automated gracefully. Solving this task often requires complex program and
memory layout transformations. First solutions to this problem have been
proposed, such as TVM or ISAMIR, which work on a loop-level representation of
operators and rewrite the program before an instruction embedding into the
operator is performed. This top-down approach creates a tension between
exploration range and search space complexity. In this work, we propose a new
approach to this problem. We have created a bottom-up method that allows the
direct generation of implementations based on an accelerator's instruction set.
By formulating the embedding as a constraint satisfaction problem over the
scalar dataflow, every possible embedding solution is contained in the search
space. By adding additional constraints, a solver can produce the subset of
preferable solutions. A detailed evaluation using the VTA hardware accelerator
with the Baidu DeepBench inference benchmark suite shows that our approach can
automatically generate code competitive to reference implementations, and
furthermore that memory layout flexibilty can be beneficial for overall
performance. While the reference implementation achieves very low hardware
utilization due to its fixed embedding strategy, we achieve a geomean speedup
of up to x2.49, while individual operators can improve as much as x238.
- Abstract(参考訳): 多くのドメインでDeep Artificial Neural Networks(DNN)の成功は、計算集約型DNNオペレーターのためのハードウェアアクセラレーターに関する豊富な研究を生み出した。
しかし、行列乗算のような複雑な命令を効率的に実装することは、まだ適切に自動化されていない課題である。
この問題を解決するには、しばしば複雑なプログラムとメモリレイアウト変換が必要である。
この問題に対する最初の解決策として、tvmやisamirが提案されており、オペレータのループレベルの表現に取り組み、オペレータへの命令が実行される前にプログラムを書き換える。
このトップダウンアプローチは、探索範囲と検索空間の複雑さの間の緊張関係を生み出す。
本研究では,この問題に対する新しいアプローチを提案する。
我々は,アクセラレータの命令セットに基づいて直接実装を生成できるボトムアップ手法を開発した。
スカラーデータフロー上の制約満足度問題として組込みを定式化することで、あらゆる可能な組込みソリューションが探索空間に含まれる。
さらなる制約を加えることで、解法は好ましい解のサブセットを生成することができる。
baidu deepbench inference benchmark suiteによるvtaハードウェアアクセラレーターを用いた詳細な評価では、リファレンス実装と競合するコードを自動的に生成し、さらにメモリレイアウトの柔軟性が全体的なパフォーマンスに有益であることを示しています。
参照実装は, 固定埋込戦略によりハードウェア利用率が極めて低いが, ジオ平均速度は x2.49 まで向上し, 個々の演算子は x238 まで改善できる。
関連論文リスト
- FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Tender: Accelerating Large Language Models via Tensor Decomposition and Runtime Requantization [0.6445087473595953]
大規模言語モデル(LLM)は、機械学習における様々なタスクにおいて優れたパフォーマンスを示す。
LLM推論のデプロイは、高い計算とメモリ要求のために問題となる。
我々は,低精度でLLM推論を効率的に展開できるアルゴリズム-ハードウェア共設計ソリューションであるテンダーを提案する。
論文 参考訳(メタデータ) (2024-06-16T09:51:55Z) - Complexity-Driven CNN Compression for Resource-constrained Edge AI [1.6114012813668934]
本稿では,CNNの層レベルでの複雑さを生かして,新しい,計算効率の高いプルーニングパイプラインを提案する。
パラメータ認識(PA)、FLOP認識(FA)、メモリ認識(MA)の3つのモードを定義し、CNNの汎用圧縮を導入する。
論文 参考訳(メタデータ) (2022-08-26T16:01:23Z) - Implementing Reinforcement Learning Datacenter Congestion Control in NVIDIA NICs [64.26714148634228]
渋滞制御 (CC) アルゴリズムの設計は非常に困難になる。
現在、計算能力に制限があるため、ネットワークデバイスにAIモデルをデプロイすることはできない。
我々は,近年の強化学習CCアルゴリズムに基づく計算軽度解を構築した。
論文 参考訳(メタデータ) (2022-07-05T20:42:24Z) - Union: A Unified HW-SW Co-Design Ecosystem in MLIR for Evaluating Tensor
Operations on Spatial Accelerators [4.055002321981825]
We present a HW-SW co-design ecosystem for space accelerators called Union。
我々のフレームワークは、いくつかのアクセラレータコストモデル上で、異なるアルゴリズムとそのマッピングを探索することができる。
コミュニティにとってのユニオンの価値をいくつかのケーススタディで実証する。
論文 参考訳(メタデータ) (2021-09-15T16:42:18Z) - DeepSplit: Scalable Verification of Deep Neural Networks via Operator
Splitting [70.62923754433461]
入力摂動に対するディープニューラルネットワークの最悪の性能を分析することは、大規模な非最適化問題の解決につながる。
解析解を持つ小さなサブプロブレムに分割することで,問題の凸緩和を直接高精度に解ける新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-16T20:43:49Z) - CoSA: Scheduling by Constrained Optimization for Spatial Accelerators [1.9149970150912705]
我々は、Deep Neural Networks(DNN)アクセラレーターをスケジューリングするための制約最適化に基づくアプローチであるCoSAを提案する。
探索空間をナビゲートするデザイナの手法や反復的な手法に依存する既存のアプローチとは対照的に、CoSAはスケジューリング決定を制約最適化問題として表現している。
CoSA生成スケジュールは、最大2.5xの幾何学平均で最先端のアプローチを大幅に上回ることを実証します。
論文 参考訳(メタデータ) (2021-05-05T07:17:25Z) - Domain-specific Genetic Algorithm for Multi-tenant DNNAccelerator
Scheduling [3.8530020696501794]
複数のサブアクセラレータコア/チップを備えた大型アクセラレータを構築する傾向が強まっている。
この研究は、このようなアクセラレータでマルチテナントをサポートする問題を検討する。
我々は,G#アコストム演算子と呼ばれる特殊な遺伝的アルゴリズムを開発し,構造的サンプル効率探索を実現する。
論文 参考訳(メタデータ) (2021-04-28T19:57:55Z) - Fast and Complete: Enabling Complete Neural Network Verification with
Rapid and Massively Parallel Incomplete Verifiers [112.23981192818721]
BaB プロセス中に線形計画法 (LP) を置き換えるために, 逆モード線形緩和に基づく解析法 (LiRPA) を提案する。
LPとは異なり、LiRPAを適用すると、より弱い境界が得られ、分割時にサブドメインのコンフリクトをチェックすることもできない。
既存のLPベースのアプローチと比較して、桁違いのスピードアップを示す。
論文 参考訳(メタデータ) (2020-11-27T16:42:12Z) - Jump Operator Planning: Goal-Conditioned Policy Ensembles and Zero-Shot
Transfer [71.44215606325005]
本稿では,シーケンシャルなサブゴールタスクの超指数空間における解を高速に計算するための,Jump-Operator Dynamic Programmingという新しいフレームワークを提案する。
このアプローチでは、時間的に拡張された行動として機能する、再利用可能な目標条件付き警察のアンサンブルを制御する。
すると、この部分空間上の目的関数のクラスを、解がグラウンド化に不変であるものとして特定し、最適ゼロショット移動をもたらす。
論文 参考訳(メタデータ) (2020-07-06T05:13:20Z) - Physarum Powered Differentiable Linear Programming Layers and
Applications [48.77235931652611]
一般線形プログラミング問題に対する効率的かつ微分可能な解法を提案する。
本稿では,ビデオセグメンテーションタスクとメタラーニングにおける問題解決手法について述べる。
論文 参考訳(メタデータ) (2020-04-30T01:50:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。