論文の概要: Optimize Weight Rounding via Signed Gradient Descent for the
Quantization of LLMs
- arxiv url: http://arxiv.org/abs/2309.05516v2
- Date: Thu, 28 Sep 2023 09:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 19:47:06.485798
- Title: Optimize Weight Rounding via Signed Gradient Descent for the
Quantization of LLMs
- Title(参考訳): LLMの量子化のための符号付き勾配線による軽量ラウンドリングの最適化
- Authors: Wenhua Cheng, Weiwei Zhang, Haihao Shen, Yiyang Cai, Xin He, Kaokao Lv
- Abstract要約: 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。
重みのみの量子化、特に3ビットと4ビットの重みのみの量子化は最も有効な解の1つである。
本稿では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。
- 参考スコア(独自算出の注目度): 16.2232096276057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have proven their exceptional capabilities in
performing language-related tasks. However, their deployment poses significant
challenges due to their considerable memory and storage requirements. In
response to this issue, weight-only quantization, particularly 3 and 4-bit
weight-only quantization, has emerged as one of the most viable solutions. As
the number of bits decreases, the quantization grid broadens, thus emphasizing
the importance of up and down rounding. While previous studies have
demonstrated that fine-tuning up and down rounding with the addition of
perturbations can enhance accuracy in some scenarios, our study is driven by
the precise and limited boundary of these perturbations, where only the
threshold for altering the rounding value is of significance. Consequently, we
propose a concise and highly effective approach for optimizing the weight
rounding task. Our method, named SignRound, involves lightweight block-wise
tuning using signed gradient descent, enabling us to achieve outstanding
results within 400 steps. SignRound competes impressively against recent
methods without introducing additional inference overhead. The source code will
be publicly available at \url{https://github.com/intel/neural-compressor} soon.
- Abstract(参考訳): 言語モデル(LLM)は、言語関連タスクの実行において、その例外的な能力を証明している。
しかし、メモリとストレージの要求がかなり大きいため、デプロイメントには重大な課題が伴う。
この問題に対して、特に3ビットと4ビットの重みのみの量子化が最も有効な解の1つとして登場した。
ビット数が減少すると量子化グリッドは拡大し、上下ラウンドの重要性が強調される。
従来の研究では、乱れの追加による微調整と下向きの丸めが精度を高めることが実証されているが、これらの乱れの正確かつ限定的な境界によって、丸め値を変更する閾値のみが重要である。
そこで本研究では,重み付け作業の最適化のための簡潔かつ高効率な手法を提案する。
我々の手法はSignRoundと呼ばれ、符号付き勾配勾配を用いた軽量なブロックワイドチューニングを伴い、400ステップ以内で優れた結果が得られる。
SignRoundは、追加の推論オーバーヘッドを導入することなく、最近のメソッドと驚くほど競合する。
ソースコードは、もうすぐ \url{https://github.com/intel/neural-compressor} で公開される。
関連論文リスト
- Masked Thought: Simply Masking Partial Reasoning Steps Can Improve
Mathematical Reasoning Learning of Language Models [106.59263704052206]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。
入力の摂動に代えて,外部リソースを回避する手法を開発した。
私たちのトレーニングアプローチは、思考の連鎖内の特定のトークンをランダムに隠蔽します。
論文 参考訳(メタデータ) (2024-03-04T16:21:54Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Model [105.63770797908127]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - QUIK: Towards End-to-End 4-Bit Inference on Generative Large Language
Models [57.04178959678024]
重み付けとアクティベーションの両方を4ビットにキャストすることで、大きな生成モデルに対する推論計算の大部分が実行可能であることを示す。
これをQUIKと呼ばれるハイブリッド量子化戦略により実現し、重みとアクティベーションの大部分を4ビットに圧縮する。
我々は、QUIKフォーマットを高効率なレイヤワイドランタイムに適合させるGPUカーネルを提供し、これにより、エンドツーエンドのスループットが3.4倍に向上する。
論文 参考訳(メタデータ) (2023-10-13T17:15:05Z) - Rethinking Channel Dimensions to Isolate Outliers for Low-bit Weight
Quantization of Large Language Models [7.931296996957891]
大規模言語モデル(LLM)は、最近、様々なタスクで顕著な成功を収めた。
重みのみの量子化は有望なアプローチであるが、大振幅のアクティベーションアウトレイアのため、サブ-4ビットの量子化は依然として課題である。
我々は、従来の出力チャネル(OC)ではなく、各入力チャネル(IC)内で量子化グループを生成する、単純で効果的な手法である、IC単位の量子化を提案する。
論文 参考訳(メタデータ) (2023-09-27T09:48:31Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - Outlier Suppression: Pushing the Limit of Low-bit Transformer Language
Models [57.933500846742234]
最近の研究は、構造化された外れ値が量子化性能の重要なボトルネックであることを認識している。
本稿では,Gamma Migration と Token-Wise Clipping の2つのコンポーネントを含む外部抑制フレームワークを提案する。
このフレームワークは、アウトレイラを効果的に抑制し、プラグアンドプレイモードで使用することができる。
論文 参考訳(メタデータ) (2022-09-27T12:05:59Z) - Efficient Adaptive Activation Rounding for Post-Training Quantization [18.174377380203033]
トレーニング後の量子化は、量子化されたニューラルネットワークをデプロイする上で便利である。
以前の研究では、重量量子化に適用された場合、最適以下の性質が示されている。
本稿では,アクティベーションのラウンドスキームを調整することで出力誤差を低減するためのAQuantフレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-25T09:02:32Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Up or Down? Adaptive Rounding for Post-Training Quantization [27.376486198998027]
学習後量子化のためのより優れた重み付き機構であるAdaRoundを提案する。
AdaRoundは高速で、ネットワークの微調整を必要としない。
論文 参考訳(メタデータ) (2020-04-22T13:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。