Fugu-MT 論文翻訳(概要): Qrazor: Reliable and effortless 4-bit llm quantization by significant data razoring

論文の概要: Qrazor: Reliable and effortless 4-bit llm quantization by significant data razoring

arxiv url: http://arxiv.org/abs/2501.13331v1
Date: Thu, 23 Jan 2025 02:20:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.150795
Title: Qrazor: Reliable and effortless 4-bit llm quantization by significant data razoring
Title（参考訳）: Qrazor: 重要なデータレイソーシングによる信頼性と労力のない4ビットllm量子化
Authors: Dongyoung Lee, Seungkyu Choi, Ik Joon Chang,
Abstract要約: QRazorは、トランスフォーマーベースの言語モデルのための信頼性と努力の無い量子化スキームである。量子化段階では、ウェイト、アクティベーション、KVキャッシュ値はより広い8ビットまたは16ビット整数で量子化される。提案した有意データレイソーシング(SDR)技術を用いて,すべてのデータを4ビットに圧縮する。量子化の労力が減ったにもかかわらず、QRazorは、最先端の4ビットメソッドに匹敵するLCM精度を達成している。
参考スコア（独自算出の注目度）: 2.983583925806601
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large-scale language models (LLMs) have demonstrated outstanding performance in language processing tasks, yet their deployment is often hindered by high memory demands and computational complexity. Although low-bit quantization techniques, such as 4-bit quantization, present a potential solution, they frequently lead to significant accuracy degradation or require substantial effort for such aggressive quantization approaches. To overcome these challenges, we introduce QRazor, a reliable and effortless quantization scheme designed to enable 4-bit quantization for weights, activations, and KV cache in transformer-based LLMs. The scheme involves two main stages: quantization and compression. During the quantization stage, weights, activations, and KV cache values are quantized with wider 8 or 16-bit integers as a basis to achieve nearly identical accuracy to the original full-precision LLM models, using the absolute max scaling. Subsequently, all data are compressed to 4-bit using our proposed significant data razoring (SDR) technique, which retains only the four most salient bits while discarding the others. Furthermore, we present an integer-based arithmetic unit dedicated to QRazor, enabling direct low-precision arithmetic operations without decompressing the SDR data. Despite the reduced quantization effort, QRazor achieves LLM accuracies better or comparable to state-of-the-art 4-bit methods. By also validating the hardware efficiency, our decompression-free arithmetic unit achieves 61.2% and 57.8% reduction in area and power consumption, respectively.
Abstract（参考訳）: 大規模言語モデル(LLM)は、言語処理タスクにおいて優れた性能を示してきたが、そのデプロイメントは高いメモリ要求と計算複雑性によって妨げられていることが多い。 4ビット量子化(英語版)のような低ビット量子化技術は潜在的な解をもたらすが、そのような攻撃的な量子化アプローチには、しばしばかなりの精度の劣化または相当な努力を必要とする。これらの課題を克服するために、QRazorは、トランスフォーマーベースのLLMにおいて、ウェイト、アクティベーション、KVキャッシュの4ビット量子化を可能にするために設計された信頼性と努力の無い量子化スキームである。このスキームは量子化と圧縮の2つの主要な段階を含む。量子化段階では、絶対最大スケーリングを用いて、ウェイト、アクティベーション、KVキャッシュ値をより広い8ビットまたは16ビット整数で量子化し、元のフル精度LCMモデルとほぼ同一の精度を達成する。その後、提案した有意データレイソーシング(SDR)技術を用いて、すべてのデータを4ビットに圧縮する。さらに、QRazor専用の整数ベースの算術演算ユニットを提案し、SDRデータを圧縮することなく直接低精度算術演算を可能にする。量子化の労力が減ったにもかかわらず、QRazorは、最先端の4ビットメソッドに匹敵するLCM精度を達成している。また、ハードウェア効率の検証により、圧縮不要演算ユニットは、それぞれ61.2%と57.8%の面積削減と消費電力削減を実現している。

関連論文リスト

Dual Precision Quantization for Efficient and Accurate Deep Neural Networks Inference [3.7687375904925484]
本稿では,ハードウェアの利点を最小限の精度で生かした,ハードウェア効率の量子化と推論手法を提案する。本研究では,新たな推定オーバーヘッドを伴わずに,新たな量子化アルゴリズムであるDual Precision Quantization (DPQ) を開発した。
論文参考訳（メタデータ） (2025-05-20T17:26:12Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [64.62231094774211]
ステートフル(例えばアダム)は、最適収束を達成するために、モデルサイズを2倍も補助情報を維持する。 SOLOにより、アダムスタイルは3ビットまたは2ビットの精度で量子化された状態を維持することができる。したがって、SOLOはAdamスタイルにシームレスに適用でき、精度の低下を最小限に抑えることができる。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
QUAD: Quantization and Parameter-Efficient Tuning of LLM with Activation Decomposition [21.13478769431063]
QUID(Quantization with Activation Decomposition)は、Singular Value Decomposition(SVD)を利用して、有効4ビット量子化のためのアクティベーションアウトリアを抑制するフレームワークである。 W4A4の量子化では94パーセントの精度、W4A4/A8では98%の精度、Llama-3およびQwen-2.5モデルのパラメータ効率の微調整を実現している。
論文参考訳（メタデータ） (2025-03-25T05:03:56Z)
ParetoQ: Scaling Laws in Extremely Low-bit LLM Quantization [58.84018707089315]
本稿では,1ビット,1.58ビット,2ビット,3ビット,4ビットの量子化設定に対して厳密な比較を行う統一フレームワークを提案する。 3次、2ビット、3ビット量子化は、サイズと精度のトレードオフにおいて同等のパフォーマンスを維持していることを示す。ハードウェアの制約を考慮すると、2ビット量子化はメモリの削減とスピードアップに有望な可能性を秘めている。
論文参考訳（メタデータ） (2025-02-04T18:59:26Z)
ResQ: Mixed-Precision Quantization of Large Language Models with Low-Rank Residuals [10.860081994662645]
大規模言語モデル(LLM)の学習後の量子化は、推論時の計算コストを抑えるという約束を果たす。本稿では,最先端技術をさらに推し進めるPTQ手法であるResQを提案する。 ResQは、様々なベンチマークにおいて、最近の一様および混合精度のPTQ法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-18T22:01:55Z)
AMXFP4: Taming Activation Outliers with Asymmetric Microscaling Floating-Point for 4-bit LLM Inference [6.699442219974261]
高速な大規模言語モデル推論のための非対称マイクロスケーリング4ビット浮動小数点(AMXFP4)を提案する。データ・ローテーションとコスト・キャリブレーションに依存する従来の4ビット量子化法とは異なり、AMXFP4は4ビット直接鋳造に非対称な共有スケールを使用する。私たちのAMXFP4フォーマットはMXFP4や他の主要な量子化技術よりも優れており、ロバストでキャリブレーションのない4ビットの推論を可能にします。
論文参考訳（メタデータ） (2024-11-15T03:11:19Z)
2DQuant: Low-bit Post-Training Quantization for Image Super-Resolution [83.09117439860607]
低ビット量子化は、エッジ展開のための画像超解像(SR)モデルを圧縮するために広く普及している。低ビット量子化は、フル精度(FP)と比較してSRモデルの精度を低下させることが知られている。本稿では2DQuantという画像超解像のための2段階の低ビット後量子化(PTQ)法を提案する。
論文参考訳（メタデータ） (2024-06-10T06:06:11Z)
HQ-DiT: Efficient Diffusion Transformer with FP4 Hybrid Quantization [10.307268005739202]
拡散変換器(DiT)は、最近、優れた視覚生成能力に対して大きな注目を集めている。 DiTは高いパラメータカウントと実装コストを持ち、携帯電話などのリソース制限されたデバイスでの使用を著しく制限している。 4ビット浮動小数点(FP)の精度をDiT推論の重みとアクティベーションの両面に利用した,効率的なポストトレーニング量子化法であるDiT(HQ-DiT)のハイブリッド浮動小点量子化を提案する。
論文参考訳（メタデータ） (2024-05-30T06:56:11Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [67.67135738642547]
後学習量子化(PTQ)は、大規模言語モデル(LLM)において研究される強力な圧縮手法である。既存のPTQ法は、特に4ビット幅以下では、精度と効率の点で理想的ではない。本稿では,LSM,すなわちSliM-LLMに対するSalience-Driven Mixed-Precision Quantizationスキームを提案する。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
DB-LLM: Accurate Dual-Binarization for Efficient LLMs [83.70686728471547]
大規模言語モデル(LLM)は自然言語処理の分野を著しく進歩させてきた。既存の超低ビット量子化は、常に深刻な精度低下を引き起こす。本稿では,LLM,すなわちDB-LLMのための新しいデュアルバイナライズ手法を提案する。
論文参考訳（メタデータ） (2024-02-19T09:04:30Z)
Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization [12.655230451207956]
本稿では,Large Language Models(LLMs)における後学習量子化(PTQ)に焦点を当てる。本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)の2つの革新的な手法を提案する。我々の技術はタスクの精度を大幅に向上させ、完全精度モデルに匹敵するレベルまで向上することを示した。
論文参考訳（メタデータ） (2023-11-09T06:19:51Z)
Atom: Low-bit Quantization for Efficient and Accurate LLM Serving [7.126191142715184]
我々は低ビット量子化手法であるAtomを導入し,精度の低下を無視して高いスループット向上を実現する。 Atomは低ビット演算子を使用することでサービスを大幅に強化し、低ビット量子化によるメモリ消費を大幅に削減する。
論文参考訳（メタデータ） (2023-10-29T18:33:05Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。