Fugu-MT 論文翻訳(概要): PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices

論文の概要: PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices

arxiv url: http://arxiv.org/abs/2004.10936v1
Date: Thu, 23 Apr 2020 02:26:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-10 10:16:09.567915
Title: PERMDNN: Efficient Compressed DNN Architecture with Permuted Diagonal Matrices
Title（参考訳）: PERMDNN: 可変対角行列を用いた効率的な圧縮DNNアーキテクチャ
Authors: Chunhua Deng, Siyu Liao, Yi Xie, Keshab K. Parhi, Xuehai Qian, Bo Yuan
Abstract要約: ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題である。本稿では、ハードウェアフレンドリーな構造化DNNモデルの生成と実行のための新しいアプローチであるPermDNNを提案する。
参考スコア（独自算出の注目度）: 35.90103072918056
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep neural network (DNN) has emerged as the most important and popular artificial intelligent (AI) technique. The growth of model size poses a key energy efficiency challenge for the underlying computing platform. Thus, model compression becomes a crucial problem. However, the current approaches are limited by various drawbacks. Specifically, network sparsification approach suffers from irregularity, heuristic nature and large indexing overhead. On the other hand, the recent structured matrix-based approach (i.e., CirCNN) is limited by the relatively complex arithmetic computation (i.e., FFT), less flexible compression ratio, and its inability to fully utilize input sparsity. To address these drawbacks, this paper proposes PermDNN, a novel approach to generate and execute hardware-friendly structured sparse DNN models using permuted diagonal matrices. Compared with unstructured sparsification approach, PermDNN eliminates the drawbacks of indexing overhead, non-heuristic compression effects and time-consuming retraining. Compared with circulant structure-imposing approach, PermDNN enjoys the benefits of higher reduction in computational complexity, flexible compression ratio, simple arithmetic computation and full utilization of input sparsity. We propose PermDNN architecture, a multi-processing element (PE) fully-connected (FC) layer-targeted computing engine. The entire architecture is highly scalable and flexible, and hence it can support the needs of different applications with different model configurations. We implement a 32-PE design using CMOS 28nm technology. Compared with EIE, PermDNN achieves 3.3x~4.8x higher throughout, 5.9x~8.5x better area efficiency and 2.8x~4.0x better energy efficiency on different workloads. Compared with CirCNN, PermDNN achieves 11.51x higher throughput and 3.89x better energy efficiency.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は、最も重要で人気のある人工知能(AI)技術として登場した。モデルサイズの成長は、基盤となるコンピューティングプラットフォームにとって重要なエネルギー効率の課題となる。したがって、モデル圧縮は重要な問題となる。しかし、現在のアプローチは様々な欠点によって制限されている。具体的には、ネットワークスペーシフィケーションアプローチは不規則性、ヒューリスティックな性質、インデックス化のオーバーヘッドが大きい。一方、最近の構造化行列ベースアプローチ(circnn)は、比較的複雑な算術計算(つまりfft)、柔軟性の低い圧縮比、そして入力スパーシティを十分に活用できないことで制限されている。本稿では, ハードウェアフレンドリな構造的DNNモデルの生成と実行を, 直交対角行列を用いた新しいアプローチであるPermDNNを提案する。 PermDNNは、非構造化スペーシフィケーションアプローチと比較して、インデックス化オーバーヘッド、非ヒューリスティック圧縮効果、時間的再トレーニングの欠点を排除している。 permdnnは、循環構造合成アプローチと比較して計算複雑性の低減、柔軟な圧縮比、単純な算術計算、入力スパーシティのフル活用の利点を享受している。本稿では,マルチプロセス要素 (PE) の階層型計算エンジンであるPermDNNアーキテクチャを提案する。アーキテクチャ全体が非常にスケーラブルで柔軟性があり、異なるモデル構成で異なるアプリケーションのニーズをサポートすることができます。 CMOS 28nm技術を用いて32PEの設計を行う。 EIEと比較すると、PermDNNは全体の3.3x〜4.8倍、面積効率は5.9x〜8.5倍、エネルギー効率は2.8x〜4.0倍である。 CirCNNと比較すると、PermDNNのスループットは11.51倍、エネルギー効率は3.89倍である。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
Resource Constrained Model Compression via Minimax Optimization for Spiking Neural Networks [11.19282454437627]
スパイキングニューラルネットワーク(SNN)は、イベント駆動型および高エネルギー効率ネットワークの特徴を持つ。これらのネットワークをリソース制限されたエッジデバイスに直接展開することは困難である。本稿では,このスパース学習問題に対するエンドツーエンドの Minimax 最適化手法を提案する。
論文参考訳（メタデータ） (2023-08-09T02:50:15Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
DepthShrinker: A New Compression Paradigm Towards Boosting Real-Hardware Efficiency of Compact Neural Networks [29.46621102184345]
ハードウェアフレンドリーなコンパクトネットワークを開発するために,DepthShrinkerというフレームワークを提案する。我々のフレームワークは、最先端のDNNや圧縮技術より優れたハードウェアフレンドリーなコンパクトネットワークを提供する。
論文参考訳（メタデータ） (2022-06-02T02:32:47Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Efficient Micro-Structured Weight Unification and Pruning for Neural Network Compression [56.83861738731913]
ディープニューラルネットワーク(DNN)モデルは、特にリソース制限されたデバイスにおいて、実用的なアプリケーションに不可欠である。既往の非構造的あるいは構造化された重量刈り法は、推論を真に加速することはほとんど不可能である。ハードウェア互換のマイクロ構造レベルでの一般化された重み統一フレームワークを提案し,高い圧縮と加速度を実現する。
論文参考訳（メタデータ） (2021-06-15T17:22:59Z)
Sparse Systolic Tensor Array for Efficient CNN Hardware Acceleration [14.958793135751149]
モバイルデバイス上の畳み込みニューラルネットワーク(CNN)推論は、低精度(INT8)汎用行列乗算(GEMM)の効率的なハードウェアアクセラレーションを必要とする CNN推論のGEMMをさらに加速する一般的な手法であり、特に、構造的スパーシリティは予測可能な負荷分散と非常に低いインデックスオーバーヘッドの利点がある。ハードウェアの高利用を保ちながら、さまざまな分散レベルのサポートを提供する方法について、構造的疎結合で重要なアーキテクチャ上の課題に対処する。
論文参考訳（メタデータ） (2020-09-04T20:17:42Z)
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文参考訳（メタデータ） (2020-05-07T12:12:49Z)
ESSOP: Efficient and Scalable Stochastic Outer Product Architecture for Deep Learning [1.2019888796331233]
行列ベクトル乗算(MVM)とベクトルベクトル外積(VVOP)は、ディープニューラルネットワーク(DNN)のトレーニングに関連する2つの最も高価な演算である。 DNNの重み更新において,多くの最先端ネットワークで要求される活性化機能を備えたSCに効率的な手法を導入する。我々のアーキテクチャは、乱数を再使用し、ビットシフトスケーリングによって特定のFP乗算演算を置き換えることで計算コストを削減する。 14nm技術ノードにおけるESSOPのハードウェア設計は、高度にパイプライン化されたFP16乗算器と比較して、ESSOPは82.2%、93.7%エネルギー効率が良いことを示している。
論文参考訳（メタデータ） (2020-03-25T07:54:42Z)
BLK-REW: A Unified Block-based DNN Pruning Framework using Reweighted Regularization Method [69.49386965992464]
本稿では, 汎用的かつ柔軟な構造化プルーニング次元と, 強力かつ効率的な再加重正規化手法を組み合わせたブロック型プルーニングフレームワークを提案する。我々のフレームワークは普遍的であり、CNNとRNNの両方に適用できる。リアルタイムモバイルアクセラレーションと精度の妥協のないCNNとRNNの共通カバレッジを実現するのはこれが初めてである。
論文参考訳（メタデータ） (2020-01-23T03:30:56Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。