論文の概要: SmartQuant: CXL-based AI Model Store in Support of Runtime Configurable Weight Quantization
- arxiv url: http://arxiv.org/abs/2407.15866v2
- Date: Sat, 17 Aug 2024 19:44:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 01:59:09.541798
- Title: SmartQuant: CXL-based AI Model Store in Support of Runtime Configurable Weight Quantization
- Title(参考訳): SmartQuant: CXLベースのAIモデルストアで実行時設定可能なウェイト量子化をサポート
- Authors: Rui Xie, Asad Ul Haq, Linsen Ma, Krystal Sun, Sanchari Sen, Swagath Venkataramani, Liu Liu, Tong Zhang,
- Abstract要約: 近年の研究では、生成的AIモデルに対する推論において、異なる重みの重要性が文脈依存的な変化を示すことが明らかになっている。
これは自然に、生成するAI推論効率を改善するために、ウェイト量子化を適応的に設定する有望な可能性を示す。
急速に成熟したCXLエコシステムに動機づけられたこの研究は、このギャップを埋めるためのCXLベースの設計ソリューションを開発する。
- 参考スコア(独自算出の注目度): 14.141233153682876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed that, during the inference on generative AI models such as transformer, the importance of different weights exhibits substantial context-dependent variations. This naturally manifests a promising potential of adaptively configuring weight quantization to improve the generative AI inference efficiency. Although configurable weight quantization can readily leverage the hardware support of variable-precision arithmetics in modern GPU and AI accelerators, little prior research has studied how one could exploit variable weight quantization to proportionally improve the AI model memory access speed and energy efficiency. Motivated by the rapidly maturing CXL ecosystem, this work develops a CXL-based design solution to fill this gap. The key is to allow CXL memory controllers play an active role in supporting and exploiting runtime configurable weight quantization. Using transformer as a representative generative AI model, we carried out experiments that well demonstrate the effectiveness of the proposed design solution.
- Abstract(参考訳): 近年の研究では、トランスフォーマーのような生成AIモデルに対する推論において、異なる重みの重要性は、文脈依存のかなりのバリエーションを示すことが明らかになっている。
これは自然に、生成するAI推論効率を改善するために、ウェイト量子化を適応的に設定する有望な可能性を示す。
構成可能な重み量子化は、現代のGPUやAIアクセラレータにおける可変精度演算のハードウェアサポートを、容易に活用できるが、従来の研究では、変動量量子化を利用してAIモデルのメモリアクセス速度とエネルギー効率を比例的に改善する方法が研究されていない。
急速に成熟したCXLエコシステムに動機づけられたこの研究は、このギャップを埋めるためのCXLベースの設計ソリューションを開発する。
鍵となるのは、CXLメモリコントローラが実行時設定可能な重み量子化をサポートし、活用する上で、アクティブな役割を果たすことである。
トランスフォーマーを代表的生成AIモデルとして使用し,提案手法の有効性を実証する実験を行った。
関連論文リスト
- Balance of Number of Embedding and their Dimensions in Vector Quantization [11.577770138594436]
本研究では,Vector Quantized Variational Autoencoder (VQ-VAE)アーキテクチャにおけるコードブックサイズと埋め込み寸法のバランスについて検討した。
本稿では,Gumbel-Softmax機構を基盤とした適応的動的量子化手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T03:07:31Z) - Designing variational ansatz for quantum-enabled simulation of
non-unitary dynamical evolution -- an excursion into Dicke supperradiance [7.977318221782395]
我々は、AVQDの非制限ベクトル化変種を用いて、様々な非単位進化系をシミュレートし、ベンチマークする。
使用したアンザッツの効率的な分解方式を示し,その応用範囲を様々なオープン量子システムシナリオに拡張することができる。
我々の成功例は、化学と物理学の複雑なシステムを研究するために、適応的な変分法を利用するための道を開いた。
論文 参考訳(メタデータ) (2024-03-07T16:57:24Z) - WKVQuant: Quantizing Weight and Key/Value Cache for Large Language
Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。
本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文 参考訳(メタデータ) (2024-02-19T11:33:21Z) - EdgeQAT: Entropy and Distribution Guided Quantization-Aware Training for
the Acceleration of Lightweight LLMs on the Edge [40.85258685379659]
トレーニング後の量子化(PTQ)メソッドは、ウェイト、アクティベーション、KVキャッシュを同時に8ビット以下に定量化する際に品質が低下する。
多くのQAT(Quantization-Aware Training)は、モデルウェイトを定量化し、アクティベーションを未修正のまま残し、エッジ上の推論加速度の量子化の可能性を完全に活用しない。
We propose EdgeQAT, the Entropy and Distribution Guided QAT for the optimization of light LLMs to achieve inference acceleration on Edge devices。
論文 参考訳(メタデータ) (2024-02-16T16:10:38Z) - Towards Next-Level Post-Training Quantization of Hyper-Scale Transformers [10.566264033360282]
ポストトレーニング量子化(PTQ)は、モバイルやテレビなどのエッジデバイスにハイパースケールモデルをデプロイするための有望なソリューションとして登場した。
本稿では,精度と効率のバランスをとる新しいPTQアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-02-14T05:58:43Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。
近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。
多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T02:28:35Z) - Weight Re-Mapping for Variational Quantum Algorithms [54.854986762287126]
変動量子回路(VQC)における重み付けの考え方を紹介する。
我々は,8つの分類データセットに対する影響を評価するために,7つの異なる重み再マッピング関数を用いる。
以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。
論文 参考訳(メタデータ) (2023-06-09T09:42:21Z) - Improving Convergence for Quantum Variational Classifiers using Weight
Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。
重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。
修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文 参考訳(メタデータ) (2022-12-22T13:23:19Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - BiTAT: Neural Network Binarization with Task-dependent Aggregated
Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。
コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。
本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文 参考訳(メタデータ) (2022-07-04T13:25:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。