論文の概要: Why Do Some Inputs Break Low-Bit LLM Quantization?
- arxiv url: http://arxiv.org/abs/2506.12044v1
- Date: Sat, 24 May 2025 16:17:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.606681
- Title: Why Do Some Inputs Break Low-Bit LLM Quantization?
- Title(参考訳): 低ビットLDM量子化を破る入力はなぜあるのか?
- Authors: Ting-Yun Chang, Muru Zhang, Jesse Thomason, Robin Jia,
- Abstract要約: 低ビット重みのみの量子化は大きな言語モデル(LLM)のメモリフットプリントを大幅に削減する
我々は, 7B-70B から 7B-70B までの LLM 上の多種多様3-4 ビット法を解析し,FinWeb の例では, 50 組の手法の量子化誤差が強く相関している(約 0.82 )。
- 参考スコア(独自算出の注目度): 27.428207255250676
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Low-bit weight-only quantization significantly reduces the memory footprint of large language models (LLMs), but disproportionately affects certain examples. We analyze diverse 3-4 bit methods on LLMs ranging from 7B-70B in size and find that the quantization errors of 50 pairs of methods are strongly correlated (avg. 0.82) on FineWeb examples. Moreover, the residual stream magnitudes of full-precision models are indicative of future quantization errors. We further establish a hypothesis that relates the residual stream magnitudes to error amplification and accumulation over layers. Using LLM localization techniques, early exiting, and activation patching, we show that examples with large errors rely on precise residual activations in the late layers, and that the outputs of MLP gates play a crucial role in maintaining the perplexity. Our work reveals why certain examples result in large quantization errors and which model components are most critical for performance preservation.
- Abstract(参考訳): 低ビット量のみの量子化は、大きな言語モデル(LLM)のメモリフットプリントを著しく減少させるが、不均一に特定の例に影響を与える。
我々は, 7B-70B から 7B-70B までの LLM 上の多種多様3-4 ビット法を解析し,FinWeb の例では, 50 組の手法の量子化誤差が強く相関している(約 0.82 )。
さらに、完全精度モデルの残留ストリームマグニチュードは、将来の量子化誤差を示している。
さらに、残差ストリームの大きさとエラー増幅と層上の蓄積を関連づける仮説を確立する。
LLMのローカライゼーション手法,早期退避,アクティベーションパッチの適用により,大きな誤差のある例は後期層における正確な残効化に依存し,MLPゲートの出力は複雑な状態を維持する上で重要な役割を担っていることを示す。
我々の研究は、ある例が大きな量子化誤差をもたらす理由と、どのモデルコンポーネントがパフォーマンスの保存に最も重要であるかを明らかにする。
関連論文リスト
- Quantizing Large Language Models for Code Generation: A Differentiated Replication [51.85505914274633]
大規模言語モデル(LLM)は、コード生成において印象的な能力を示しており、特に自然言語で記述された要求を自動的に実装する。
LLMはメモリ(そして結果として炭素)のフットプリントに重大な課題をもたらす。
LLM量子化の新しいフロンティアは4ビット精度であり、平均メモリフットプリントが70%減少する。
論文 参考訳(メタデータ) (2025-03-10T09:26:08Z) - RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。
RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。
その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文 参考訳(メタデータ) (2025-02-13T06:44:33Z) - ASER: Activation Smoothing and Error Reconstruction for Large Language Model Quantization [18.017182472532415]
ASERは、SVDを白化して構築したLoRAスタイルの行列を用いた量子化誤差に対する低ランク補償からなるアルゴリズムである。
ASERは、典型的な外れ値を低ビットの値に量子化することができる。
論文 参考訳(メタデータ) (2024-11-12T12:52:04Z) - Temporal Scaling Law for Large Language Models [57.83580734589091]
本稿では,LLMの試験損失が,トレーニングステップのスケールアップとともにどのように進展するかを考察する,時間スケーリング法の概念を提案する。
テスト損失全体を粗い粒度でモデル化するのとは対照的に、私たちはそれを分解して、各トークン位置のきめ細かいテスト損失に飛び込みます。
動的双曲法則におけるパラメータの時間的パターンを研究することにより、より正確な時間的スケーリング法則を導出する。
論文 参考訳(メタデータ) (2024-04-27T05:49:11Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - ApiQ: Finetuning of 2-Bit Quantized Large Language Model [12.328293460903911]
ApiQは、LoRAコンポーネントを並列に初期化し、LLMの重みを定量化することで、失われた情報を量子化から復元するように設計されている。
様々なビット幅にわたって優れた微調整結果が得られる。
論文 参考訳(メタデータ) (2024-02-07T09:36:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。