Fugu-MT 論文翻訳(概要): DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs

論文の概要: DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs

arxiv url: http://arxiv.org/abs/2410.12187v2
Date: Thu, 17 Oct 2024 06:10:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.113712
Title: DAQ: Density-Aware Post-Training Weight-Only Quantization For LLMs
Title（参考訳）: DAQ:LLMのためのトレーニング後の重み付き量子化
Authors: Yingsong Luo, Ling Chen,
Abstract要約: 大規模言語モデル(LLM)は様々なタスクに優れるが、ハードウェアの制約によりデプロイメントの課題に直面している。重み付き重み付き量子化(DAQ)を提案する。 LLaMAとLLaMA-2の実験では、DAQが最良基準法より一貫して優れていることが示されている。
参考スコア（独自算出の注目度）: 5.997345078540391
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) excel in various tasks but face deployment challenges due to hardware constraints. We propose density-aware post-training weight-only quantization (DAQ), which has two stages: 1) density-centric alignment, which identifies the center of high-density weights and centers the dynamic range on this point to align high-density weight regions with floating-point high-precision regions; 2) learnable dynamic range adjustment, which adjusts the dynamic range by optimizing quantization parameters (i.e., scale and zero-point) based on the impact of weights on the model output. Experiments on LLaMA and LLaMA-2 show that DAQ consistently outperforms the best baseline method, reducing perplexity loss by an average of 22.8% on LLaMA and 19.6% on LLaMA-2. Our code is available at https://github.com/LuoYingSong/DAQ.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なタスクに優れるが、ハードウェアの制約によりデプロイメントの課題に直面している。本稿では,2段階の重み付き重み付き量子化(DAQ)を提案する。 1) 密度中心のアライメントは,高密度重みの中心を識別し,高密度重み領域と浮動小さめ高精度領域とを一致させるために,この点のダイナミックレンジを中心とする。 2) モデル出力に対する重みの影響に基づいて量子化パラメータ(スケールとゼロポイント)を最適化することにより動的範囲を調整する学習可能な動的レンジ調整を行う。 LLaMAとLLaMA-2の実験では、DAQは最高のベースライン法より一貫して優れており、LLaMAでは平均22.8%、LLaMA-2では19.6%のパープレキシティ損失が減少している。私たちのコードはhttps://github.com/LuoYingSong/DAQ.comで公開されています。

関連論文リスト

LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [27.07694377337617]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。微調整量子化モデルは、主に低精度量子化重みと高精度適応重みの間のデータ型におけるミスマッチから生じる重要な課題を示す。 LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
論文参考訳（メタデータ） (2025-05-24T14:47:28Z)
DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models [11.216745641229917]
ポストトレーニング量子化(PTQ)は一般的な手法であるが、しばしば低ビットレベルの課題に直面している。量子化対応トレーニング(QAT)はこの問題を軽減することができるが、計算資源が大幅に必要である。そこで本研究では,QATの利点をマージし,総パラメータの1%未満のトレーニングを行ないながら,低域量子化意識トレーニング(DL-QAT)を導入する。
論文参考訳（メタデータ） (2025-04-12T13:57:02Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models [11.708250566573334]
大規模言語モデル(LLM)の極低ビット量子化のためのベクトル後学習量子化(VPTQ)を導入する。 VPTQはLLaMA-2で0.01$-$0.34$、Mistral-7Bで0.38$-$0.68$、LLaMA-3で4.41$-$7.34$を2ビットで還元する。また、モデル精度を高め、モデルをさらに圧縮する残差量子化および外れ値量子化をサポートするためにVPTQを拡張した。
論文参考訳（メタデータ） (2024-09-25T16:25:45Z)
The Uniqueness of LLaMA3-70B Series with Per-Channel Quantization [5.7672452948056545]
量子化は、大規模言語モデル(LLM)を効率的にデプロイするための重要なテクニックである。 W8A8後の量子化がモデル精度に与える影響はいまだ議論の余地がある。我々はLLaMA3-70Bモデルシリーズが量子化に一意に弱い理由を考察する。
論文参考訳（メタデータ） (2024-08-27T15:03:01Z)
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。 LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-27T14:41:14Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
CLAQ: Pushing the Limits of Low-Bit Post-Training Quantization for LLMs [44.03692512352445]
カラムレベル適応量量子化(CLAQ)は、LLM(Large Language Models)量子化のための新しく効果的なフレームワークである。本稿では,LLM量子化のための3種類の適応戦略を導入することで,新しい効果的なCLAQフレームワークを提案する。 LLaMA-1, LLaMA-2, Yi など,様々な主要なオープンソース LLM に関する実験により, 提案手法が様々なビット設定における最先端結果を達成することを示す。
論文参考訳（メタデータ） (2024-05-27T14:49:39Z)
SliM-LLM: Salience-Driven Mixed-Precision Quantization for Large Language Models [63.118592279833656]
後学習量子化(PTQ)は,大規模言語モデル(LLM)の圧縮に有効な手法である本稿では,SliM-LLMを提案する。SliM-LLMは,グループ単位でビット幅を割り当てるサリエンス駆動の混合精度量子化フレームワークである。実験により、SliM-LLMは低ビット幅の様々なLLMにおいて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-05-23T16:21:48Z)
APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models [12.006605064782567]
APTQ (Attention-aware Post-Training Mixed-Precision Quantization) を提案する。我々は、ヘッセントレースを混合精度量子化の感度指標として利用し、情報精度の低下を確実にする。実験の結果、APTQは従来の量子化法を超え、平均4ビット幅と5.22パープレキシティを達成した。
論文参考訳（メタデータ） (2024-02-21T07:45:22Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
QA-LoRA: Quantization-Aware Low-Rank Adaptation of Large Language Models [85.02796681773447]
量子化対応低ランク適応(QA-LoRA)アルゴリズムを提案する。その動機は量子化と適応の自由の不均衡度にある。 QA-LoRAは数行のコードで簡単に実装できる。
論文参考訳（メタデータ） (2023-09-26T07:22:23Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。 AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文参考訳（メタデータ） (2023-06-01T17:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。