論文の概要: QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model
Co-Exploration
- arxiv url: http://arxiv.org/abs/2206.15463v1
- Date: Thu, 30 Jun 2022 17:55:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-01 15:57:00.857474
- Title: QUIDAM: A Framework for Quantization-Aware DNN Accelerator and Model
Co-Exploration
- Title(参考訳): QUIDAM:量子化対応DNN加速器とモデル共探索のためのフレームワーク
- Authors: Ahmet Inci and Siri Garudanagiri Virupaksha and Aman Jain and Ting-Wu
Chin and Venkata Vivek Thallam and Ruizhou Ding and Diana Marculescu
- Abstract要約: QUIDAMは量子化対応のディープニューラルネットワーク(DNN)アクセラレータで、モデル共同探索フレームワークである。
その結果,異なるビット精度と処理要素のタイプが,面積とエネルギーあたりのパフォーマンスに有意な差をもたらすことがわかった。
提案フレームワークは, 面積毎の性能が5倍, エネルギー毎の性能が35倍を超える幅広い設計点を同定する。
- 参考スコア(独自算出の注目度): 16.41338353426051
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the machine learning and systems communities strive to achieve higher
energy-efficiency through custom deep neural network (DNN) accelerators, varied
precision or quantization levels, and model compression techniques, there is a
need for design space exploration frameworks that incorporate
quantization-aware processing elements into the accelerator design space while
having accurate and fast power, performance, and area models. In this work, we
present QUIDAM, a highly parameterized quantization-aware DNN accelerator and
model co-exploration framework. Our framework can facilitate future research on
design space exploration of DNN accelerators for various design choices such as
bit precision, processing element type, scratchpad sizes of processing
elements, global buffer size, number of total processing elements, and DNN
configurations. Our results show that different bit precisions and processing
element types lead to significant differences in terms of performance per area
and energy. Specifically, our framework identifies a wide range of design
points where performance per area and energy varies more than 5x and 35x,
respectively. With the proposed framework, we show that lightweight processing
elements achieve on par accuracy results and up to 5.7x more performance per
area and energy improvement when compared to the best INT16 based
implementation. Finally, due to the efficiency of the pre-characterized power,
performance, and area models, QUIDAM can speed up the design exploration
process by 3-4 orders of magnitude as it removes the need for expensive
synthesis and characterization of each design.
- Abstract(参考訳): 機械学習とシステムコミュニティは、カスタムディープニューラルネットワーク(DNN)アクセラレータ、さまざまな精度や量子化レベル、モデル圧縮技術を通じて、より高いエネルギー効率を達成するために努力しているため、正確で高速なパワー、パフォーマンス、領域モデルを持ちながら、量子化対応の処理要素をアクセラレーション空間に組み込むデザインスペース探索フレームワークが必要である。
本稿では,高パラメータ化量子化対応DNNアクセラレータであるQUIDAMとモデル共探索フレームワークを提案する。
我々のフレームワークは、ビット精度、処理要素タイプ、処理要素のスクラッチパッドサイズ、グローバルバッファサイズ、総処理要素数、DNN構成など、様々な設計選択のためのDNNアクセラレータの設計空間探索を容易にする。
その結果,異なるビット精度と処理要素のタイプは,面積とエネルギーあたりの性能に大きな違いをもたらすことがわかった。
具体的には,領域ごとのパフォーマンスとエネルギーがそれぞれ5倍と35倍に変化する,幅広い設計ポイントを特定する。
提案するフレームワークでは,軽量な処理要素が精度よく達成され,領域ごとの性能が最大5.7倍向上し,優れたINT16ベースの実装と比較してエネルギー効率が向上することを示す。
最後に, キャラクタライズドパワー, 性能, 面積モデルの効率性から, QUIDAMは, 高価な合成・キャラクタリゼーションの必要性を排除し, 設計探索プロセスを3~4桁高速化することができる。
関連論文リスト
- Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference [4.093167352780157]
本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。
また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
論文 参考訳(メタデータ) (2024-03-08T17:28:49Z) - Compositional Generative Inverse Design [69.22782875567547]
入力変数を設計して目的関数を最適化する逆設計は重要な問題である。
拡散モデルにより得られた学習エネルギー関数を最適化することにより、そのような逆例を避けることができることを示す。
N-body 相互作用タスクと2次元多面体設計タスクにおいて,実験時に学習した拡散モデルを構成することにより,初期状態と境界形状を設計できることを示す。
論文 参考訳(メタデータ) (2024-01-24T01:33:39Z) - The Hardware Impact of Quantization and Pruning for Weights in Spiking
Neural Networks [0.368986335765876]
パラメータの量子化とプルーニングは、モデルサイズを圧縮し、メモリフットプリントを削減し、低レイテンシ実行を容易にする。
本研究では,身近な身近なジェスチャー認識システムであるSNNに対して,孤立度,累積的に,そして同時にプルーニングと量子化の様々な組み合わせについて検討する。
本研究では,3次重みまで精度の低下に悩まされることなく,攻撃的パラメータ量子化に対処可能であることを示す。
論文 参考訳(メタデータ) (2023-02-08T16:25:20Z) - QADAM: Quantization-Aware DNN Accelerator Modeling for Pareto-Optimality [11.408950820860884]
本稿では,DNNアクセラレータのための高パラメータ化量子化対応パワー,性能,領域モデリングフレームワークQADAMを提案する。
この結果から,ビット精度とPEタイプの違いが,面積とエネルギーあたりの性能に有意な差をもたらすことが明らかとなった。
提案手法により,LightPEの精度は同等であり,面積当たりの性能は最大5.7倍,エネルギー効率は最大5.7倍に向上した。
論文 参考訳(メタデータ) (2022-05-20T21:05:56Z) - QAPPA: Quantization-Aware Power, Performance, and Area Modeling of DNN
Accelerators [11.408950820860884]
本稿では,量子化対応処理要素をアクセラレーション設計空間に組み込んだフレームワークを提案する。
提案する軽量処理素子は, 面積あたりの4.9倍の性能向上とエネルギー効率の向上を実現している。
その結果,異なるビット精度と処理要素のタイプが,面積とエネルギーあたりのパフォーマンスに有意な差をもたらすことがわかった。
論文 参考訳(メタデータ) (2022-05-17T22:08:13Z) - Space4HGNN: A Novel, Modularized and Reproducible Platform to Evaluate
Heterogeneous Graph Neural Network [51.07168862821267]
本稿では, ヘテロジニアス・リニア変換, ヘテロジニアス・グラフ変換, ヘテロジニアス・メッセージパッシング・レイヤの3つのコンポーネントからなる, 殆どのHGNNをカバーする統一的なフレームワークを提案する。
次に、モジュール化されたコンポーネント、再現可能な実装、およびHGNNの標準化された評価を提供する統一フレームワークに基づいて、HGNNの設計空間を定義することで、Space4HGNNを構築する。
論文 参考訳(メタデータ) (2022-02-18T13:11:35Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Design Space for Graph Neural Networks [81.88707703106232]
グラフニューラルネットワーク(GNN)のアーキテクチャ設計空間は,32種類の予測タスクに対して315,000の異なる設計で構成されている。
本研究の主な成果は,(1) 優れたGNNを設計するための包括的ガイドライン,(2) 異なるタスクに対する最高のGNN設計は著しく異なるが,GNNタスク空間は,異なるタスク間で最高の設計を転送することができる,(3) デザイン空間を用いて発見されたモデルが最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-11-17T18:59:27Z) - Generative Design of Hardware-aware DNNs [6.144349819246314]
本稿では,自律量子化とHW対応チューニングの新しい手法を提案する。
生成モデルであるAQGANは、目標精度を条件として、一連の量子化構成を生成する。
我々は、ImageNetデータセット上で広く使われている5つの効率的なモデルについて、我々のモデルを評価した。
論文 参考訳(メタデータ) (2020-06-06T20:39:25Z) - SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost
Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。
そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。
さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文 参考訳(メタデータ) (2020-05-07T12:12:49Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。