論文の概要: MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization
- arxiv url: http://arxiv.org/abs/2411.05282v2
- Date: Tue, 12 Nov 2024 05:29:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:22:06.482764
- Title: MicroScopiQ: Accelerating Foundational Models through Outlier-Aware Microscaling Quantization
- Title(参考訳): MicroScopiQ: Outlier-Aware Microscaling Quantizationによる基礎モデルの高速化
- Authors: Akshat Ramachandran, Souvik Kundu, Tushar Krishna,
- Abstract要約: 基本モデル(FM)の量子化は、外れ値と呼ばれる大規模な特徴の出現によって困難である。
既存のoutlier-awareアルゴリズム/アーキテクチャの共同設計技術は、混合精度を使用し、outlierを高い精度で保持するが、ハードウェア効率を損なうか、同じ精度でinlierとoutlierを定量化する。
我々は、プルーニングを利用して外れ値認識量子化を補完する新しい共同設計手法MicroScopiQを提案する。
- 参考スコア(独自算出の注目度): 6.456189487006878
- License:
- Abstract: Quantization of foundational models (FMs) is significantly more challenging than traditional DNNs due to the emergence of large magnitude features called outliers. Existing outlier-aware algorithm/architecture co-design techniques either use mixed-precision, retaining outliers at high precision but compromise hardware efficiency, or quantize inliers and outliers at the same precision, improving hardware efficiency at the cost of accuracy. To address this mutual exclusivity, in this paper, we propose MicroScopiQ, a novel co-design technique that leverages pruning to complement outlier-aware quantization. MicroScopiQ retains outliers at higher precision while pruning a certain fraction of least important weights to distribute the additional outlier bits; ensuring high accuracy, aligned memory and hardware efficiency. We design a high-throughput, low overhead accelerator architecture composed of simple multi-precision INT processing elements and a novel network-on-chip called ReCoN that efficiently abstracts the complexity of supporting high-precision outliers. Additionally, unlike existing alternatives, MicroScopiQ does not assume any locality of outlier weights, enabling applicability to a broad range of FMs. Extensive experiments across various quantization settings show that MicroScopiQ achieves SoTA quantization performance while simultaneously improving inference performance by 3x and reducing energy by 2x over existing alternatives.
- Abstract(参考訳): 基本モデル(FM)の量子化は、外れ値と呼ばれる大規模な特徴の出現により、従来のDNNよりもはるかに困難である。
既存のoutlier-awareアルゴリズム/アーキテクチャの共同設計技術は、混合精度を使用するか、outlierを高い精度で保持するか、ハードウェア効率を損なうか、または同じ精度でinlierとoutlierを定量化し、精度を犠牲にしてハードウェア効率を向上させる。
この相互排他性に対処するために、我々は、プルーニングを利用してアウリエ対応量子化を補完する新しい共同設計手法であるMicroScopiQを提案する。
MicroScopiQは、アウトリーチを高い精度で保持し、最小限の重みを割り出して追加のアウトリーチビットを分配し、高い精度、整列メモリ、ハードウェア効率を確保する。
我々は、単純なマルチ精度INT処理要素とReCoNと呼ばれる新しいネットワークオンチップからなる高スループット低オーバーヘッドアクセラレーターアーキテクチャを設計し、高い精度の出力をサポートする複雑さを効率的に抽象化する。
さらに、既存の代替品とは異なり、MicroScopiQは外れ値の局所性を前提とせず、広い範囲のFMに適用可能である。
様々な量子化設定の広範な実験により、MicroScopiQはSoTA量子化性能を達成し、同時に推論性能を3倍改善し、既存の代替よりもエネルギーを2倍削減することを示した。
関連論文リスト
- Mixed-precision Neural Networks on RISC-V Cores: ISA extensions for Multi-Pumped Soft SIMD Operations [5.847997723738113]
現代の組み込みマイクロプロセッサは、混合精度NNを非常に限定的にサポートしている。
本稿では,協調ハードウェア設計,混合精度量子化,ISA拡張,推論を可能にするハードウェア・ソフトウェア共同設計フレームワークを提案する。
我々のフレームワークは、平均15倍のエネルギー削減を1%未満の精度で達成でき、ISA非依存のRISC-Vコアよりも優れています。
論文 参考訳(メタデータ) (2024-07-19T12:54:04Z) - OutlierTune: Efficient Channel-Wise Quantization for Large Language Models [24.645237670811476]
OutlierTuneは、大規模言語モデルのアクティベーションのための効率的なチャネルごとのポストトレーニング量子化手法である。
提案するフレームワークは実装が容易で、ハードウェア効率が良く、推論中に計算オーバーヘッドがほとんど発生しない。
論文 参考訳(メタデータ) (2024-06-27T02:02:26Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions [20.241671088121144]
最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
論文 参考訳(メタデータ) (2023-11-23T17:20:09Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - Faster Attention Is What You Need: A Fast Self-Attention Neural Network
Backbone Architecture for the Edge via Double-Condensing Attention Condensers [71.40595908386477]
本稿では,2重対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向対向
結果のバックボーン(AttendNeXtと呼ぶ)は、組み込みARMプロセッサ上で大幅に高い推論スループットを実現する。
これらの有望な結果は、さまざまな効率的なアーキテクチャ設計と自己アテンション機構の探索が、TinyMLアプリケーションのための興味深い新しいビルディングブロックにつながることを実証している。
論文 参考訳(メタデータ) (2022-08-15T02:47:33Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。