Fugu-MT 論文翻訳(概要): Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference

論文の概要: Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference

arxiv url: http://arxiv.org/abs/2403.05465v2
Date: Tue, 26 Mar 2024 18:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-28 21:44:21.049228
Title: Algorithm-Hardware Co-Design of Distribution-Aware Logarithmic-Posit Encodings for Efficient DNN Inference
Title（参考訳）: 効率的なDNN推論のための分布対応対数-電位符号化のアルゴリズムハードウェア共同設計
Authors: Akshat Ramachandran, Zishen Wan, Geonhwa Jeong, John Gustafson, Tushar Krishna,
Abstract要約: 本稿では,ポジトリにインスパイアされた適応型ハードウェアフレンドリなデータ型であるLogarithmic Posits (LP)を紹介する。また,LPQ(LP Quantization, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化, LP量子化)
参考スコア（独自算出の注目度）: 4.093167352780157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Traditional Deep Neural Network (DNN) quantization methods using integer, fixed-point, or floating-point data types struggle to capture diverse DNN parameter distributions at low precision, and often require large silicon overhead and intensive quantization-aware training. In this study, we introduce Logarithmic Posits (LP), an adaptive, hardware-friendly data type inspired by posits that dynamically adapts to DNN weight/activation distributions by parameterizing LP bit fields. We also develop a novel genetic-algorithm based framework, LP Quantization (LPQ), to find optimal layer-wise LP parameters while reducing representational divergence between quantized and full-precision models through a novel global-local contrastive objective. Additionally, we design a unified mixed-precision LP accelerator (LPA) architecture comprising of processing elements (PEs) incorporating LP in the computational datapath. Our algorithm-hardware co-design demonstrates on average <1% drop in top-1 accuracy across various CNN and ViT models. It also achieves ~ 2x improvements in performance per unit area and 2.2x gains in energy efficiency compared to state-of-the-art quantization accelerators using different data types.
Abstract（参考訳）: 整数、固定点、浮動小数点データ型を用いた従来のディープニューラルネットワーク(DNN)量子化手法は、低精度で多様なDNNパラメータの分布を捉えるのに苦労し、大きなシリコンオーバーヘッドと集中的な量子化対応トレーニングを必要とすることが多い。本研究では,LPビットフィールドをパラメータ化することにより,DNNの重み/活性化分布に動的に適応するポジットにインスパイアされた,適応的でハードウェアフレンドリなデータ型であるLogarithmic Posits(LP)を紹介する。我々はまた,新しい遺伝的アルゴリズムに基づくLP量子化(LPQ)フレームワークを開発し,新しいグローバルなコントラスト的目的を通じて,量子化モデルと完全精度モデルとの表現のばらつきを減らしながら,最適な層次LPパラメータを求める。さらに,計算データパスにLPを組み込んだ処理要素(PE)からなる混合精度LPアクセラレータ(LPA)アーキテクチャを設計する。我々のアルゴリズムとハードウェアの共設計は、様々なCNNおよびViTモデルにおいて、平均<1%の精度でトップ1の精度が低下することを示した。また、異なるデータ型を用いた最先端量子化加速器と比較して、単位面積当たりのパフォーマンスが約2倍向上し、エネルギー効率が2.2倍向上する。

関連論文リスト

Layer-wise Quantization for Quantized Optimistic Dual Averaging [75.4148236967503]
我々は、訓練の過程で不均一性に適応し、厳密な分散とコード長境界を持つ一般的な層ワイド量子化フレームワークを開発する。本稿では,適応学習率を持つ量子最適化双対平均化(QODA)アルゴリズムを提案する。
論文参考訳（メタデータ） (2025-05-20T13:53:58Z)
Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
Low-bit Quantization for Deep Graph Neural Networks with Smoothness-aware Message Propagation [3.9177379733188715]
本稿では,資源制約のある環境において,これらの課題に対処するためのエンドツーエンドソリューションを提案する。本稿では,学習中のメッセージパッシングからノード分類まで,GNNのすべての段階に対する量子化に基づくアプローチを提案する。提案した量子化器は量子化範囲を学習し、低ビット量子化の下でも同等の精度でモデルサイズを削減する。
論文参考訳（メタデータ） (2023-08-29T00:25:02Z)
ANT: Exploiting Adaptive Numerical Data Type for Low-bit Deep Neural Network Quantization [31.494669469303954]
ハードウェアオーバーヘッドの少ない低ビット量子化を実現するため,ANTと呼ばれる固定長適応型数値型を提案する。我々の設計は、最先端の量子化加速器よりも2.8$times$スピードアップと2.5$times$エネルギー効率の改善をもたらす。
論文参考訳（メタデータ） (2022-08-30T14:12:49Z)
A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing [5.3221129103999125]
分散コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして登場した。本稿では,レート・精度・複雑さのトレードオフを最適化する上での課題に対処するアプローチを提案する。我々のアプローチは、トレーニングと推論の両方において非常に軽量であり、非常に効果的であり、高い速度歪曲性能を実現する。
論文参考訳（メタデータ） (2022-08-24T15:02:11Z)
Green, Quantized Federated Learning over Wireless Networks: An Energy-Efficient Design [68.86220939532373]
有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用して取得される。提案するFLフレームワークは,ベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大70%削減することができる。
論文参考訳（メタデータ） (2022-07-19T16:37:24Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Mixed Precision Low-bit Quantization of Neural Network Language Models for Speech Recognition [67.95996816744251]
長期間のメモリリカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端言語モデル(LM)は、実用アプリケーションではますます複雑で高価なものになりつつある。現在の量子化法は、均一な精度に基づいており、量子化誤差に対するLMの異なる部分での様々な性能感度を考慮できない。本稿では,新しい混合精度ニューラルネットワークLM量子化法を提案する。
論文参考訳（メタデータ） (2021-11-29T12:24:02Z)
Low-Precision Training in Logarithmic Number System using Multiplicative Weight Update [49.948082497688404]
大規模ディープニューラルネットワーク(DNN)のトレーニングは、現在かなりの量のエネルギーを必要としており、深刻な環境影響をもたらす。エネルギーコストを削減するための有望なアプローチの1つは、DNNを低精度で表現することである。対数数システム(LNS)と乗算重み更新訓練法(LNS-Madam)を併用した低精度トレーニングフレームワークを共同で設計する。
論文参考訳（メタデータ） (2021-06-26T00:32:17Z)
MSP: An FPGA-Specific Mixed-Scheme, Multi-Precision Deep Neural Network Quantization Framework [39.43144643349916]
本稿では,ディープラーニングエッジコンピューティングのハードウェアプラットフォームとして一般的に使用されているFPGAデバイスを対象としている。線形数と非線形数の両方を量子化に組み込んだ混合スキームDNN量子化法を提案する。我々は,層間次元に沿って複数の精度をサポートする量子化法を用い,既存の量子化法は層間次元に沿って多重精度の量子化を適用する。
論文参考訳（メタデータ） (2020-09-16T04:24:18Z)
AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文参考訳（メタデータ） (2020-07-14T09:07:29Z)
Compressing deep neural networks on FPGAs to binary and ternary precision with HLS4ML [13.325670094073383]
本稿では, hls4mlライブラリにおける2次ニューラルネットワークと3次ニューラルネットワークの実装について述べる。モデル精度と資源消費のトレードオフについて論じる。二分法と三分法の実装は、FPGAリソースを劇的に減らしながら高い精度の実装と類似した性能を持つ。
論文参考訳（メタデータ） (2020-03-11T10:46:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。