Fugu-MT 論文翻訳(概要): Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

論文の概要: Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs

arxiv url: http://arxiv.org/abs/2309.05516v2
Date: Thu, 28 Sep 2023 09:05:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-29 19:47:06.485798
Title: Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs
Title（参考訳）: LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化
Authors: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
Abstract要約: 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。重みのみの量子化、特に3ビットと4ビットの重みのみの量子化は最も有効な解の1つである。本稿では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。
参考スコア（独自算出の注目度）: 16.2232096276057
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) have proven their exceptional capabilities in performing language-related tasks. However, their deployment poses significant challenges due to their considerable memory and storage requirements. In response to this issue, weight-only quantization, particularly 3 and 4-bit weight-only quantization, has emerged as one of the most viable solutions. As the number of bits decreases, the quantization grid broadens, thus emphasizing the importance of up and down rounding. While previous studies have demonstrated that fine-tuning up and down rounding with the addition of perturbations can enhance accuracy in some scenarios, our study is driven by the precise and limited boundary of these perturbations, where only the threshold for altering the rounding value is of significance. Consequently, we propose a concise and highly effective approach for optimizing the weight rounding task. Our method, named SignRound, involves lightweight block-wise tuning using signed gradient descent, enabling us to achieve outstanding results within 400 steps. SignRound competes impressively against recent methods without introducing additional inference overhead. The source code will be publicly available at \url{https://github.com/intel/neural-compressor} soon.
Abstract（参考訳）: 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。しかし、メモリとストレージの要求がかなり大きいため、デプロイメントには重大な課題が伴う。この問題に対して、特に3ビットと4ビットの重みのみの量子化が最も有効な解の1つとして登場した。ビット数が減少すると量子化グリッドは拡大し、上下ラウンドの重要性が強調される。従来の研究では、乱れの追加による微調整と下向きの丸めが精度を高めることが実証されているが、これらの乱れの正確かつ限定的な境界によって、丸め値を変更する閾値のみが重要である。そこで本研究では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。我々の手法はSignRoundと呼ばれ、符号付き勾配勾配を用いた軽量なブロックワイドチューニングを伴い、400ステップ以内で優れた結果が得られる。 SignRoundは、追加の推論オーバーヘッドを導入することなく、最近のメソッドと驚くほど競合する。ソースコードは、もうすぐ \url{https://github.com/intel/neural-compressor} で公開される。

関連論文リスト

SignRoundV2: Closing the Performance Gap in Extremely Low-Bit Post-Training Quantization for LLMs [4.946856266233001]
SignRoundV2は訓練後の量子化フレームワークであり、混合精度なしでも非常に効果的である。提案手法は大規模言語モデルの競合精度を保ち、4-5ビットで約1%のばらつきで生産レベルの性能を達成する。
論文参考訳（メタデータ） (2025-12-04T12:35:10Z)
Fine-tuning Quantized Neural Networks with Zeroth-order Optimization [21.0540879091664]
我々は、勾配推定のために連続量子化スケールを摂動する単純で効果的な方法である量子化ゼロ階最適化(QZO)を提案する。 QZOは4ビットLLMの合計メモリコストを18ドル以上削減でき、24GBのGPUでLlama-2-13Bを微調整できる。
論文参考訳（メタデータ） (2025-05-19T17:55:15Z)
Pushing the Limits of Low-Bit Optimizers: A Focus on EMA Dynamics [65.37942405146232]
超低精度量子化により達成された,超軽量な状態要素を持つ新しいタイプのオーバーロードを提案する。提案したSOLOは,精度の低下を最小限に抑え,メモリの大幅な節約(7Bモデルのトレーニング時に約45GB)を実現する。
論文参考訳（メタデータ） (2025-05-01T06:47:45Z)
Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models [27.730213115659986]
言語モデル(LLM)はしばしば、推論におけるメモリコストとレイテンシを低減するために、精度を下げるために量子化される。従来の微調整手法ではバックプロパゲーションが必要であり、低精度設定ではエラーが発生しやすい。本稿では,低精度フォワードパスを用いた微調整LDMのための量子ゼロオーダー(Quantized Zeroth-Order)フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T22:20:31Z)
Qrazor: Reliable and Effortless 4-bit LLM Quantization by Significant Data Razoring [2.983583925806601]
QRazorは、ウェイト、アクティベーション、KVキャッシュの4ビット量子化をトランスフォーマーベース言語モデルで実現可能な、シンプルで効果的な量子化方式である。まず、8ビットまたは16ビットの整数を用いてデータを量子化し、絶対的な最大スケーリングで完全精度のモデルに近い精度で保存し、次に、重要なデータレイソーシング(SDR)技術を用いて4ビットに圧縮する。
論文参考訳（メタデータ） (2025-01-23T02:20:08Z)
HALO: Hadamard-Assisted Lower-Precision Optimization for LLMs [48.55966021231297]
本稿では,トランスフォーマーのための新しい量子化学習手法HALOを提案する。提案手法により, 前方・後方パスにおける行列乗算の精度が低くなることが保証される。 LLAMAファミリーモデルに適用すると、HALOは様々なタスクの微調整中にほぼ完全精度に等しい結果が得られる。
論文参考訳（メタデータ） (2025-01-05T18:41:54Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
SLiM: One-shot Quantized Sparse Plus Low-rank Approximation of LLMs [2.7624021966289605]
大規模言語モデル(LLM)は、自然言語の理解と生成タスクに革命をもたらした。 LLMは、大きなパラメータサイズのため、メモリ消費が高く、推論時間が遅い。本稿では,1ショットの量子スパースプラス低ランク近似を用いたLEMの圧縮手法であるSLiMを紹介する。
論文参考訳（メタデータ） (2024-10-12T18:36:07Z)
EfficientQAT: Efficient Quantization-Aware Training for Large Language Models [50.525259103219256]
量子化対応トレーニング(QAT)は、低ビット表現によるメモリ消費を最小限の精度で削減することで、ソリューションを提供する。より有効なQATアルゴリズムであるEfficient QAT(Efficient Quantization-Aware Training)を提案する。効率的なQATは、全てのパラメータのブロックワイドトレーニング(Block-AP)と量子化パラメータのエンドツーエンドトレーニング(E2E-QP)の2つのフェーズを含む。
論文参考訳（メタデータ） (2024-07-10T17:53:30Z)
GPTQT: Quantize Large Language Models Twice to Push the Efficiency [1.3149617027696827]
本稿では,学習後量子化手法であるGPTQTを導入し,メモリ使用量の削減と処理速度の向上を図る。重みの量子化誤差の最小化は非効率であり、過度に適合することを示した。 GPTQTは、最初は線形量子化を用いて重みを相対的に高いビットに量子化し、続いて得られた重みを低ビットバイナリ符号化に変換する。
論文参考訳（メタデータ） (2024-07-03T08:08:01Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models [12.006605064782567]
APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
論文参考訳（メタデータ） (2024-02-21T07:45:22Z)
QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文参考訳（メタデータ） (2023-10-13T17:15:05Z)
OmniQuant: Omnidirectionally Calibrated Quantization for Large Language Models [57.27101446992148]
大規模言語モデル(LLM)は自然言語処理タスクに革命をもたらした。近年のPTQ法はメモリフットプリントの削減とLLMの計算効率の向上に有効である。多様な量子化設定において優れた性能を実現するLLMのOmnidirectly calibrated Quantization手法を提案する。
論文参考訳（メタデータ） (2023-08-25T02:28:35Z)
SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文参考訳（メタデータ） (2023-06-13T08:57:54Z)
Q-ASR: Integer-only Zero-shot Quantization for Efficient Speech Recognition [65.7040645560855]
ASRモデルに対する整数のみのゼロショット量子化スキームであるQ-ASRを提案する。全精度ベースラインモデルと比較すると,wrの変化は無視できる。 Q-ASRは、WER劣化が少ない4倍以上の圧縮率を示します。
論文参考訳（メタデータ） (2021-03-31T06:05:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。