Fugu-MT 論文翻訳(概要): FrameQuant: Flexible Low-Bit Quantization for Transformers

論文の概要: FrameQuant: Flexible Low-Bit Quantization for Transformers

arxiv url: http://arxiv.org/abs/2403.06082v1
Date: Sun, 10 Mar 2024 04:01:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 08:52:38.554930
Title: FrameQuant: Flexible Low-Bit Quantization for Transformers
Title（参考訳）: FrameQuant:変換器のフレキシブル低ビット量子化
Authors: Harshavardhan Adepu, Zhanpeng Zeng, Li Zhang, Vikas Singh
Abstract要約: ポストトライニング量子化は、事前トレーニングされたモデルを変更し、それを8ビット以下に量子化する。変換器モデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。
参考スコア（独自算出の注目度）: 27.93241211038938
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Transformers are the backbone of powerful foundation models for many Vision and Natural Language Processing tasks. But their compute and memory/storage footprint is large, and so, serving such models is expensive often requiring high-end hardware. To mitigate this difficulty, Post-Training Quantization seeks to modify a pre-trained model and quantize it to eight bits or lower, significantly boosting compute/memory/latency efficiency. Such models have been successfully quantized to four bits with some performance loss. In this work, we outline a simple scheme to quantize Transformer-based models to just two bits (plus some overhead) with only a small drop in accuracy. Key to our formulation is a concept borrowed from Harmonic analysis called Fusion Frames. Our main finding is that the quantization must take place not in the original weight space, but instead in the Fusion Frame representations. If quantization is interpreted as the addition of noise, our casting of the problem allows invoking an extensive body of known consistent recovery and noise robustness guarantees. Further, if desired, de-noising filters are known in closed form. We show empirically, via a variety of experiments, that (almost) two-bit quantization for Transformer models promises sizable efficiency gains.
Abstract（参考訳）: トランスフォーマーは多くのビジョンと自然言語処理タスクのための強力な基盤モデルのバックボーンです。しかし、計算とメモリ/ストレージのフットプリントは大きいため、そのようなモデルを提供するにはハイエンドのハードウェアを必要とすることが多い。この難しさを軽減するために、Post-Training Quantizationは、事前訓練されたモデルを変更し、それを8ビット以下に量子化し、計算/メモリ/レイテンシ効率を大幅に向上させようとしている。このようなモデルは4ビットに量子化され、性能が低下している。本研究では,Transformerをベースとしたモデルを,わずかに精度を低下させるだけで,わずか2ビット(オーバーヘッドを含む)に定量化する簡単なスキームを概説する。我々の定式化の鍵は、融合フレームと呼ばれる調和解析から借用された概念である。我々の主な発見は、量子化は元の重み空間ではなく、融合フレーム表現において行われるべきであるということである。量子化がノイズの追加と解釈される場合、我々のキャスティングは、既知の一貫性のある回復と雑音のロバスト性保証の広範なボディを呼び出すことを可能にする。さらに、もし望めば、非雑音フィルタは閉形式で知られている。様々な実験を通して、トランスフォーマーモデルに対する(ほとんど)2ビット量子化は、大きな効率向上を約束することを示す。

関連論文リスト

Quantized Visual Geometry Grounded Transformer [67.15451442018258]
本稿では,VGGTの最初の量子化フレームワーク,すなわちQuantVGGTを提案する。球状前アダマール回転と局所流路平滑化を統合したDual-Smoothed Fine-Grained Quantizationを導入する。また、重層統計量を用いて外周をフィルタするノイズフィルタディバースサンプリングを設計する。
論文参考訳（メタデータ） (2025-09-25T15:17:11Z)
QuantFace: Low-Bit Post-Training Quantization for One-Step Diffusion Face Restoration [109.89807858620242]
拡散モデルは顔修復において顕著な性能を発揮している。拡散モデルの重い計算は、スマートフォンのようなデバイスにそれらを展開するのを困難にしている。一段階拡散面復元モデルのための新しい低ビット量子化法であるQuantFaceを提案する。
論文参考訳（メタデータ） (2025-06-01T03:52:59Z)
Speculative Decoding Meets Quantization: Compatibility Evaluation and Hierarchical Framework Design [34.04231165571518]
投機的復号化と量子化は、大きな言語モデルのメモリバウンド推論を効果的に加速する。量子化は、重みとアクティベーションを低ビット幅に圧縮することでこれを達成し、低ビット行列乗算による計算を減らす。実験により、4ビットの重み量子化によるメモリの利点は、投機的復号化による計算負荷によって減少することが示された。
論文参考訳（メタデータ） (2025-05-28T09:55:08Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
Masked Generative Nested Transformers with Decode Time Scaling [21.34984197218021]
本研究では,視覚生成アルゴリズムにおける推論計算効率のボトルネックに対処することを目的とする。我々は、計算を効果的に活用するためにデコード時間モデルのスケーリングスケジュールを設計し、計算の一部をキャッシュして再利用することができる。実験の結果,ベースラインよりも3倍近い計算量で,競争性能が得られることがわかった。
論文参考訳（メタデータ） (2025-02-01T09:41:01Z)
SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [58.5019443418822]
拡散モデルは高品質な画像を生成するのに非常に効果的であることが証明されている。これらのモデルが大きくなるにつれて、メモリが大幅に増加し、レイテンシの低下に悩まされる。本研究では,その重みとアクティベーションを4ビットに定量化し,拡散モデルの高速化を目指す。
論文参考訳（メタデータ） (2024-11-07T18:59:58Z)
decoupleQ: Towards 2-bit Post-Training Uniform Quantization via decoupling Parameters into Integer and Floating Points [10.238677144792279]
deoupleQは従来の量子化パラダイムを捨て、モデルパラメータを整数と浮動小数点に分解する。 ByteDanceの大規模音声モデルの2ビット量子化では,fp16/bf16付近のオンライン精度が良好であった。
論文参考訳（メタデータ） (2024-04-19T10:02:53Z)
NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。量子化空間全体にわたって新しい量子化重みを学習する方法を示す。本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-10T14:19:58Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文参考訳（メタデータ） (2022-08-28T04:18:27Z)
8-bit Optimizers via Block-wise Quantization [57.25800395197516]
ステートフルズは、例えば過去の値の指数的滑らかな和(運動量付きSGD)や2乗和(アダム)など、時間の経過とともに統計を維持している。この状態は、通常の勾配降下よりも最適化を加速するために使用することができるが、そうでなければモデルパラメータに割り当てられる可能性のあるメモリを使用する。本稿では,32ビットの勾配状態を用いた場合の性能レベルを維持しながら,8ビット統計を用いた第1次勾配法を開発する。
論文参考訳（メタデータ） (2021-10-06T15:43:20Z)
One Model for All Quantization: A Quantized Network Supporting Hot-Swap Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。重みの多様性を高めるためにウェーブレット分解と再構成を用いる。同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文参考訳（メタデータ） (2021-05-04T08:10:50Z)
Differentiable Model Compression via Pseudo Quantization Noise [99.89011673907814]
本稿では,モデルパラメータに独立な擬似量子化雑音を加えて量子化演算子の効果を近似する。本手法が,画像分類,言語モデリング,音声ソース分離などのベンチマークやアーキテクチャにおいて,最先端の量子化技術を上回ることを実験的に検証した。
論文参考訳（メタデータ） (2021-04-20T14:14:03Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。