論文の概要: FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training
- arxiv url: http://arxiv.org/abs/2004.13027v1
- Date: Mon, 27 Apr 2020 15:51:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 06:05:08.430145
- Title: FlexSA: Flexible Systolic Array Architecture for Efficient Pruned DNN
Model Training
- Title(参考訳): FlexSA: 効率的なDNNモデルトレーニングのための柔軟なシストリックアレーアーキテクチャ
- Authors: Sangkug Lym, Mattan Erez
- Abstract要約: 一般的なトレーニングアクセラレーターを大きなシストリックアレイでプルーニングすることは、非常に性能的に非効率であることがわかった。
本研究では,シストリックアレイを効率的なプルーニングとトレーニングを行うために,フレキシブルなシストリックアレイアーキテクチャであるFlexSAを提案する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業負荷における行列乗算および累積演算のコンパイルを提案する。
- 参考スコア(独自算出の注目度): 1.718730454558804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Modern deep learning models have high memory and computation cost. To make
them fast and memory-cost efficient, structured model pruning is commonly used.
We find that pruning a model using a common training accelerator with large
systolic arrays is extremely performance-inefficient. To make a systolic array
efficient for pruning and training, we propose FlexSA, a flexible systolic
array architecture. FlexSA dynamically reconfigures the systolic array
structure and offers multiple sub-systolic operating modes, which are designed
for energy- and memory bandwidth-efficient processing of tensors with different
sizes and shapes. We also present a compilation heuristic for tiling
matrix-multiplication-and-accumulation operations in a training workload to
best utilize the resources of FlexSA. Based on our evaluation, FlexSA with the
proposed compilation heuristic improves compute resource utilization of pruning
and training modern CNN models by 37% compared to a conventional training
accelerator with a large systolic array. FlexSA also improves on-chip data
reuse by 1.7X saving 28% energy compared to naive systolic array splitting.
- Abstract(参考訳): 現代のディープラーニングモデルは、メモリと計算コストが高い。
高速化とメモリコストの削減のために、構造化モデルプルーニングが一般的である。
大規模シストリック配列を持つ共通のトレーニングアクセラレータを用いたモデルのpruningは、非常にパフォーマンス非効率であることが分かりました。
そこで本研究では,シストリックアレーの効率を高めるために,フレキシブルなシストリックアレーアーキテクチャであるflexsaを提案する。
FlexSAはシストリックアレイ構造を動的に再構成し、複数のサブシストリック動作モードを提供する。
また、FlexSAのリソースを最大限活用するために、トレーニング作業における行列乗算および累積演算のコンパイルヒューリスティックも提案する。
提案したコンパイルヒューリスティックを用いたFlexSAは,従来のシストリックアレイを用いたトレーニングアクセラレータと比較して,最新のCNNモデルのプルーニングとトレーニングの計算資源利用を37%向上させる。
FlexSAはまた、1.7倍の省エネでオンチップデータの再利用を改善する。
関連論文リスト
- Flextron: Many-in-One Flexible Large Language Model [85.93260172698398]
我々は,フレキシブルモデル展開をサポートするネットワークアーキテクチャとポストトレーニングモデル最適化フレームワークであるFlextronを紹介する。
本稿では,既存の学習用LDMをFlextronモデルに変換するための,サンプル効率のよいトレーニング手法と関連するルーティングアルゴリズムを提案する。
我々は、複数のエンドツーエンドトレーニングされた変種や他の最先端の弾性ネットワークよりも優れた性能を示し、これらは全て、オリジナルの事前訓練と比較してわずか7.63%のトークンを消費する単一の事前訓練ランで実現している。
論文 参考訳(メタデータ) (2024-06-11T01:16:10Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Slapo: A Schedule Language for Progressive Optimization of Large Deep
Learning Model Training [17.556432199389615]
Slapoは、テンソルレベルの演算子の実行をその算術的定義から切り離すスケジュール言語である。
SlapoはNVIDIA V100 GPUを8台搭載した1台のマシンで最大2.92倍のトレーニングスループットを向上できることを示す。
論文 参考訳(メタデータ) (2023-02-16T00:34:53Z) - ArrayFlex: A Systolic Array Architecture with Configurable Transparent
Pipelining [0.0]
畳み込みニューラルネットワーク(CNN)は、多くのディープラーニングアプリケーションのための最先端のソリューションである。
本研究では,パイプラインを用いたシストリックアレイの設計に焦点をあてる。
ArrayFlexは、従来の固定パイプ型シストリックアレイと比較して、最先端CNNのレイテンシを平均で11%削減することを示す。
論文 参考訳(メタデータ) (2022-11-22T21:56:38Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Tevatron: An Efficient and Flexible Toolkit for Dense Retrieval [60.457378374671656]
Tevatronは、効率、柔軟性、コードの単純さに最適化された高密度な検索ツールキットである。
Tevatronのフレキシブルな設計は、データセット、モデルアーキテクチャ、アクセラレータプラットフォームをまたいで簡単に一般化できることを示す。
論文 参考訳(メタデータ) (2022-03-11T05:47:45Z) - Memory-efficient array redistribution through portable collective
communication [0.4096453902709291]
MPIスタイルの集合演算のシーケンスとして配列再分配を合成するためのタイプ指向のアプローチを提案する。
我々は, 合成再分配がメモリ効率が高く, 過剰なデータ転送は行わないことを正式に証明した。
我々はXLA実装に対する我々のアプローチを評価し、我々のアプローチは幾何平均スピードアップが$1.22times$であり、最大スピードアップが$5.7times$であることを示した。
論文 参考訳(メタデータ) (2021-12-02T09:32:07Z) - Dynamic Probabilistic Pruning: A general framework for
hardware-constrained pruning at different granularities [80.06422693778141]
異なる粒度(重み、カーネル、フィルタ/フィーチャーマップ)での刈り取りを容易にするフレキシブルな新しい刈り取り機構を提案する。
このアルゴリズムをDPP(Dynamic Probabilistic Pruning)と呼ぶ。
DPPは、画像分類のための異なるベンチマークデータセットで訓練された一般的なディープラーニングモデルを刈り取る際に、競合圧縮率と分類精度を達成する。
論文 参考訳(メタデータ) (2021-05-26T17:01:52Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。