Fugu-MT 論文翻訳(概要): Transition Rate Scheduling for Quantization-Aware Training

論文の概要: Transition Rate Scheduling for Quantization-Aware Training

arxiv url: http://arxiv.org/abs/2404.19248v1
Date: Tue, 30 Apr 2024 04:12:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-01 15:33:46.262261
Title: Transition Rate Scheduling for Quantization-Aware Training
Title（参考訳）: 量子化学習のための遷移速度スケジューリング
Authors: Junghyup lee, Dohyung Kim, Jeimin Jeon, Bumsub Ham,
Abstract要約: 量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。勾配ベースを用いて遅延重みを更新することで、間接的に量子化された重みを学習する。本稿では,量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を提案する。
参考スコア（独自算出の注目度）: 26.792400685888175
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Quantization-aware training (QAT) simulates a quantization process during training to lower bit-precision of weights/activations. It learns quantized weights indirectly by updating latent weights, i.e., full-precision inputs to a quantizer, using gradient-based optimizers. We claim that coupling a user-defined learning rate (LR) with these optimizers is sub-optimal for QAT. Quantized weights transit discrete levels of a quantizer, only if corresponding latent weights pass transition points, where the quantizer changes discrete states. This suggests that the changes of quantized weights are affected by both the LR for latent weights and their distributions. It is thus difficult to control the degree of changes for quantized weights by scheduling the LR manually. We conjecture that the degree of parameter changes in QAT is related to the number of quantized weights transiting discrete levels. Based on this, we introduce a transition rate (TR) scheduling technique that controls the number of transitions of quantized weights explicitly. Instead of scheduling a LR for latent weights, we schedule a target TR of quantized weights, and update the latent weights with a novel transition-adaptive LR (TALR), enabling considering the degree of changes for the quantized weights during QAT. Experimental results demonstrate the effectiveness of our approach on standard benchmarks.
Abstract（参考訳）: 量子化対応トレーニング(QAT)は、ウェイト/アクティベーションのビット精度を低下させるために、トレーニング中の量子化プロセスをシミュレートする。量子化重みを間接的に学習し、勾配に基づくオプティマイザを用いて、潜時重み、すなわち完全精度の入力を量子化器に更新する。ユーザ定義学習率(LR)とこれらのオプティマイザを結合することはQATに準最適であると主張する。量子化重みが量子化器の離散レベルを通過するのは、対応する潜在重みが遷移点を通過するときのみであり、そこでは量子化器が離散状態を変化させる。このことは、量子化重量の変化が、潜在重量のLRとそれらの分布の両方に影響されていることを示唆している。したがって、LRを手動でスケジューリングすることで、量子化重量の変化の度合いを制御することは困難である。我々は、QATにおけるパラメータの変化の度合いが、離散レベルを通過する量子化重みの数に関係していると推測する。これに基づいて、量子化重みの遷移数を明示的に制御する遷移率(TR)スケジューリング手法を導入する。遅延重みのLRをスケジューリングする代わりに、量子化重みのターゲットTRをスケジュールし、新しい遷移適応LR(TALR)で潜在重みの更新を行い、QAT中の量子化重みの変化の度合いを考慮できる。実験により, 標準ベンチマークにおける提案手法の有効性が示された。

関連論文リスト

LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [27.07694377337617]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。微調整量子化モデルは、主に低精度量子化重みと高精度適応重みの間のデータ型におけるミスマッチから生じる重要な課題を示す。 LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。
論文参考訳（メタデータ） (2025-05-24T14:47:28Z)
Task-Circuit Quantization: Leveraging Knowledge Localization and Interpretability for Compression [55.323397702682506]
後トレーニング量子化(PTQ)は、コストのかかる再トレーニングなしに全精度重みを低ビット重みにマッピングすることで、モデルのメモリフットプリントを削減する。我々は,自動回路発見に並列性を持つ新しい混合精度PTQ手法であるTask-Circuit Quantization (TaCQ)を開発した。
論文参考訳（メタデータ） (2025-04-10T02:19:03Z)
OstQuant: Refining Large Language Model Quantization with Orthogonal and Scaling Transformations for Better Distribution Fitting [20.944120156871108]
後学習量子化(PTQ)は、Large Language Models(LLMs)の圧縮・加速技術として広く採用されている。 LLM量子化における大きな課題は、不均一で重み付きデータ分布が量子化範囲を拡大し、ほとんどの値のビット精度を低下させることである。本稿では、量子化空間におけるデータの空間利用率を測定することにより、変換データの量子化性を効果的に評価する新しい指標である量子化空間利用率(BrotherQSUR)を紹介する。
論文参考訳（メタデータ） (2025-01-23T08:24:25Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高める新しいポストトレーニング量子化手法であるFlatQuantを提案する。本手法では, 線形層毎の最適アフィン変換を, 軽量な目的により数時間で調整する。 LLaMA-3-70BモデルでのW4A4量子化の精度は1%以下で、SpinQuantを7.5%上回る。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
Compensate Quantization Errors+: Quantized Models Are Inquisitive Learners [51.32182730502002]
重み分布を改良し、量子化アライメントを改善するために、特異値対角展開を導入する。我々のプラグアンドプレイウェイト量子化法は、最先端のアプローチよりも大幅に性能が向上したことを示す。
論文参考訳（メタデータ） (2024-07-22T09:45:16Z)
LRQ: Optimizing Post-Training Quantization for Large Language Models by Learning Low-Rank Weight-Scaling Matrices [41.17378536966264]
低ランク量子化$-$は、大規模言語モデルのための単純だが効果的なポストトレーニング重み量子化法である。低ランク構造によるパラメータ共有により、LRQは重みの個別のスケーリングを可能にしながら、パラメータを著しく少ない値で学習するのみである。従来の LLM PTQ よりも, (i) 8$-bit ウェイトおよび (ii) 4$-bit ウェイトおよび (ii) 8$-bit アクティベーション量子化, (iii) 低ビットウェイトのみの量子化スキームにおける LRQ の優位性を示す。
論文参考訳（メタデータ） (2024-07-16T09:32:07Z)
ERQ: Error Reduction for Post-Training Quantization of Vision Transformers [48.740630807085566]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。本稿では,活性化と重み量子化に起因する量子化誤差を逐次低減する2段階のPTQ手法であるERQを提案する。 ERQはW3A4 ViT-Sの精度を22.36%上回っている。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
WKVQuant: Quantizing Weight and Key/Value Cache for Large Language Models Gains More [55.0856305773081]
大規模言語モデル (LLM) は、そのメモリ要求と自動回帰テキスト生成プロセスの計算要求のために、重要なデプロイメント課題に直面している。本稿では、モデルパラメータとアクティベーションを低ビット整数に変換することでメモリ消費を低減する手法であるLCMの量子化に着目し、これらの課題に対処する。
論文参考訳（メタデータ） (2024-02-19T11:33:21Z)
RepQuant: Towards Accurate Post-Training Quantization of Large Transformer Models via Scale Reparameterization [8.827794405944637]
ポストトレーニング量子化(PTQ)は、大きなトランスモデルを圧縮するための有望な解である。既存のPTQメソッドは、通常、非自明な性能損失を示す。本稿では、量子化推論デカップリングパラダイムを備えた新しいPTQフレームワークRepQuantを提案する。
論文参考訳（メタデータ） (2024-02-08T12:35:41Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
Improving Convergence for Quantum Variational Classifiers using Weight Re-Mapping [60.086820254217336]
近年、量子機械学習は変分量子回路(VQC)の利用が大幅に増加した。重みを2pi$の間隔に不明瞭にマッピングするために、VQCの重み再マッピングを導入する。修正されていないウェイトを用いて、Wineデータセットの重量再マッピングにより、テスト精度が10%向上したことを実証した。
論文参考訳（メタデータ） (2022-12-22T13:23:19Z)
Exploiting the Partly Scratch-off Lottery Ticket for Quantization-Aware Training [69.8539756804198]
数回のトレーニングの後に、量子化重量の大部分が最適な量子化レベルに達し、これは部分的にスクラッチオフされた宝くじと呼ばれる。フル精度のチケットと量子化レベルの距離が制御可能な閾値よりも小さい場合、重量を凍結する「抽選チケットスクラッカー」(LTS)と呼ばれる手法を開発した。
論文参考訳（メタデータ） (2022-11-12T06:11:36Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文参考訳（メタデータ） (2020-02-18T12:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。