論文の概要: FrameQuant: Flexible Low-Bit Quantization for Transformers
- arxiv url: http://arxiv.org/abs/2403.06082v1
- Date: Sun, 10 Mar 2024 04:01:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 08:52:38.554930
- Title: FrameQuant: Flexible Low-Bit Quantization for Transformers
- Title(参考訳): FrameQuant:変換器のフレキシブル低ビット量子化
- Authors: Harshavardhan Adepu, Zhanpeng Zeng, Li Zhang, Vikas Singh
- Abstract要約: ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。
変換器モデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
- 参考スコア(独自算出の注目度): 27.93241211038938
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers are the backbone of powerful foundation models for many Vision
and Natural Language Processing tasks. But their compute and memory/storage
footprint is large, and so, serving such models is expensive often requiring
high-end hardware. To mitigate this difficulty, Post-Training Quantization
seeks to modify a pre-trained model and quantize it to eight bits or lower,
significantly boosting compute/memory/latency efficiency. Such models have been
successfully quantized to four bits with some performance loss. In this work,
we outline a simple scheme to quantize Transformer-based models to just two
bits (plus some overhead) with only a small drop in accuracy. Key to our
formulation is a concept borrowed from Harmonic analysis called Fusion Frames.
Our main finding is that the quantization must take place not in the original
weight space, but instead in the Fusion Frame representations. If quantization
is interpreted as the addition of noise, our casting of the problem allows
invoking an extensive body of known consistent recovery and noise robustness
guarantees. Further, if desired, de-noising filters are known in closed form.
We show empirically, via a variety of experiments, that (almost) two-bit
quantization for Transformer models promises sizable efficiency gains.
- Abstract(参考訳): トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。
しかし、計算とメモリ/ストレージのフットプリントは大きいため、そのようなモデルを提供するにはハイエンドのハードウェアを必要とすることが多い。
この難しさを軽減するために、Post-Training Quantizationは、事前訓練されたモデルを変更し、それを8ビット以下に量子化し、計算/メモリ/レイテンシ効率を大幅に向上させようとしている。
このようなモデルは4ビットに量子化され、性能が低下している。
本研究では,Transformerをベースとしたモデルを,わずかに精度を低下させるだけで,わずか2ビット(オーバーヘッドを含む)に定量化する簡単なスキームを概説する。
我々の定式化の鍵は、融合フレームと呼ばれる調和解析から借用された概念である。
我々の主な発見は、量子化は元の重み空間ではなく、融合フレーム表現において行われるべきであるということである。
量子化がノイズの追加と解釈される場合、我々のキャスティングは、既知の一貫性のある回復と雑音のロバスト性保証の広範なボディを呼び出すことを可能にする。
さらに、もし望めば、非雑音フィルタは閉形式で知られている。
様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
関連論文リスト
- SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。
これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。
本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。
ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文 参考訳(メタデータ) (2024-04-19T10:02:53Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - 8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。
この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。
本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文 参考訳(メタデータ) (2021-10-06T15:43:20Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。
本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-04-20T14:14:03Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。