Fugu-MT 論文翻訳(概要): Oscillation-free Quantization for Low-bit Vision Transformers

論文の概要: Oscillation-free Quantization for Low-bit Vision Transformers

arxiv url: http://arxiv.org/abs/2302.02210v1
Date: Sat, 4 Feb 2023 17:40:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-07 19:39:54.451531
Title: Oscillation-free Quantization for Low-bit Vision Transformers
Title（参考訳）: 低ビットビジョン変換器の無振動量子化
Authors: Shih-Yang Liu, Zechun Liu, Kwang-Ting Cheng
Abstract要約: 重み振動は量子化対応トレーニングの好ましくない副作用である。本稿では,一般的な学習可能スケール法と比較して量子化を改善する3つの手法を提案する。当社のアルゴリズムはImageNetの精度を大幅に向上させる。
参考スコア（独自算出の注目度）: 36.64352091626433
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Weight oscillation is an undesirable side effect of quantization-aware training, in which quantized weights frequently jump between two quantized levels, resulting in training instability and a sub-optimal final model. We discover that the learnable scaling factor, a widely-used $\textit{de facto}$ setting in quantization aggravates weight oscillation. In this study, we investigate the connection between the learnable scaling factor and quantized weight oscillation and use ViT as a case driver to illustrate the findings and remedies. In addition, we also found that the interdependence between quantized weights in $\textit{query}$ and $\textit{key}$ of a self-attention layer makes ViT vulnerable to oscillation. We, therefore, propose three techniques accordingly: statistical weight quantization ($\rm StatsQ$) to improve quantization robustness compared to the prevalent learnable-scale-based method; confidence-guided annealing ($\rm CGA$) that freezes the weights with $\textit{high confidence}$ and calms the oscillating weights; and $\textit{query}$-$\textit{key}$ reparameterization ($\rm QKR$) to resolve the query-key intertwined oscillation and mitigate the resulting gradient misestimation. Extensive experiments demonstrate that these proposed techniques successfully abate weight oscillation and consistently achieve substantial accuracy improvement on ImageNet. Specifically, our 2-bit DeiT-T/DeiT-S algorithms outperform the previous state-of-the-art by 9.8% and 7.7%, respectively. The code is included in the supplementary material and will be released.
Abstract（参考訳）: 重み振動は量子化対応トレーニングの望ましくない副作用であり、量子化された重みは2つの量子化レベルの間で頻繁にジャンプし、トレーニングの不安定性と準最適最終モデルをもたらす。学習可能なスケーリング係数である$\textit{de facto}$の量子化設定は、重みの振動を増大させる。本研究では,学習可能なスケーリング因子と量的重み振動との関係について検討し,vitをケースドライバとして活用し,その発見と改善について検討した。さらに、量子化重みの相互依存性が$\textit{query}$と$\textit{key}$の自己アテンション層であることから、ViTは振動に弱いことが判明した。そこで,本研究では, 統計的量量化($\rm StatsQ$)による量子化ロバスト性の向上と, 一般的な学習可能スケール法と比較しての信頼性向上($\rm CGA$)による重み付けを凍結し, 発振重みを緩和する($\textit{high confidence}$, $\textit{query}$-$\textit{key}$再パラメータ化($\rm QKR$)によるクエリキーの相互交叉振動の解消と, 結果の勾配推定の緩和を行う($\rm QKR$)3つの手法を提案する。広汎な実験により、これらの手法は重量振動を緩和し、一貫して画像ネットの精度を向上することを示した。具体的には、我々の2ビットのDeiT-T/DeiT-Sアルゴリズムは、それぞれ9.8%と7.7%で先行技術を上回っている。コードは補足資料に含まれており、リリースされます。

関連論文リスト

S2D: Selective Spectral Decay for Quantization-Friendly Conditioning of Neural Activations [30.145244497712792]
大規模変圧器モデルにおける活性化アウトレイアは、量子化をモデル化するための根本的な課題である。本稿では,最大特異値に対応する重量成分のみを外科的に正規化する幾何学的条件付け法であるS2D$(Selective Spectral Decay)を提案する。我々は、S2D$がアクティベーションアウトリーを著しく減らし、本質的に量子化に親しみやすい条件付き表現を生成することを示した。
論文参考訳（メタデータ） (2026-02-16T03:41:06Z)
D$^2$Quant: Accurate Low-bit Post-Training Weight Quantization for LLMs [33.883527341335856]
軽量後トレーニング量子化(PTQ)は、メモリ使用量を減らし、低ビット演算子や専用ハードウェアを使わずに実用的なスピードアップを可能にするため、魅力的である。精度は、重量のみのPTQにおいて、サブ-4ビットの精度で著しく低下する。 D$2$Quantは、ウェイトとアクティベーションの両方の観点から量子化を改善する新しいウェイトオンリーのPTQフレームワークである。
論文参考訳（メタデータ） (2026-01-30T05:49:48Z)
Optimizing Learned Image Compression on Scalar and Entropy-Constraint Quantization [8.95146413290727]
正しい量子化データに対する再トレーニングは、一様スカラーおよび特にエントロピー制約量子化に対して、一貫した符号化ゲインをもたらすことを示す。 Kodakテストセットでは、平均貯蓄率1%から2%、TecNickテストではBjontegaard-Deltaの2.2%に設定されている。
論文参考訳（メタデータ） (2025-06-10T10:22:22Z)
LoTA-QAF: Lossless Ternary Adaptation for Quantization-Aware Fine-Tuning [50.89500210372827]
リソース制約のあるエッジデバイスに大規模言語モデル(LLM)をデプロイするには、量子化と微調整が不可欠である。 LoTA-QAFは量子化LDM用に特別に設計された新しい微調整法である。 MMLUベンチマークでは,16ビットLORAを最大5.14%越えて,量子化モデルの性能を効果的に回復する。
論文参考訳（メタデータ） (2025-05-24T14:47:28Z)
CondiQuant: Condition Number Based Low-Bit Quantization for Image Super-Resolution [59.91470739501034]
画像超解像のための条件数に基づく低ビットポストトレーニング量子化であるCondiQuantを提案する。 CondiQuantは、計算オーバーヘッドを伴わずに、既存の最先端のポストトレーニング量子化手法よりも精度が高いことを示す。
論文参考訳（メタデータ） (2025-02-21T14:04:30Z)
PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2025-02-18T08:04:58Z)
Oscillations Make Neural Networks Robust to Quantization [0.16385815610837165]
量子化アウェアトレーニング(QAT)における振動は,STE(Straight-Through Estimator)によって引き起こされる望ましくない人工物であることを示す。量子化を改善するために振動を誘導する新しい正則化法を提案する。
論文参考訳（メタデータ） (2025-02-01T16:39:58Z)
GWQ: Gradient-Aware Weight Quantization for Large Language Models [61.17678373122165]
勾配対応重み量子化(GWQ)は、勾配を利用して外れ値の局所化を行う、低ビット重み量子化のための最初の量子化手法である。 GWQはFP16精度で上位1%の外れ値に対応し、残りの非外れ値重みは低ビットフォーマットで格納される。ゼロショットタスクでは、GWQ量子化モデルは他の量子化法よりも精度が高い。
論文参考訳（メタデータ） (2024-10-30T11:16:04Z)
FlatQuant: Flatness Matters for LLM Quantization [58.28221892035609]
重みとアクティベーションの平坦性を高めるための新しいポストトレーニング量子化手法であるFlatQuantを提案する。提案手法では,各線形層に配向した最適アフィン変換を,軽量な対象ランタイムを介して数時間で校正する。推論レイテンシーのために、FlatQuantは、プリ量子化変換によって引き起こされる遅延を、QuatRotの0.26xから単に$textbf0.07x$に減らし、プリフィルの$textbf2.3x$とデコードのための$textbf1.7x$のスピードアップをもたらす。
論文参考訳（メタデータ） (2024-10-12T08:10:28Z)
Reclaiming Residual Knowledge: A Novel Paradigm to Low-Bit Quantization [41.94295877935867]
本稿では、畳み込みニューラルネットワーク(ConvNets)内のアーキテクチャ探索問題として最適量子化をフレーミングすることにより、低ビット(すなわち4ビット以下)量子化における新しいパラダイムを探求する。 textbfCoRaと呼ばれる我々のフレームワークは、低ランクアダプタの最適アーキテクチャを探索する。 textbfCoRaは、最先端の量子化対応トレーニングとトレーニング後の量子化ベースラインの両方に対して、同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-08-01T21:27:31Z)
Towards Accurate Post-Training Quantization of Vision Transformers via Error Reduction [48.740630807085566]
ビジョントランスフォーマー(ViT)のPTQ(Post-training Quantization)は,学術的,産業的にも注目されている。現在の方法は、量子化された重みとアクティベーションの間の複雑な相互作用を考慮できないため、量子化エラーと準最適性能をもたらす。本稿では,活性化と重み量子化による量子化誤差を逐次低減する2段階PTQ法であるERQを提案する。
論文参考訳（メタデータ） (2024-07-09T12:06:03Z)
OAC: Output-adaptive Calibration for Accurate Post-training Quantization [30.115888331426515]
大規模言語モデル(LLM)を圧縮するPTQ(Post-training Quantization)技術が開発されている。ほとんどのPTQは、キャリブレーションされた層単位で$ell$損失に基づいて量子化誤差を定式化する。キャリブレーションプロセスにモデル出力を組み込むための出力適応型(OAC)を提案する。
論文参考訳（メタデータ） (2024-05-23T20:01:17Z)
QuantTune: Optimizing Model Quantization with Adaptive Outlier-Driven Fine Tuning [16.50084447690437]
この研究は、これらの精度低下の原因を明らかにし、量子化フレンドリな微調整法である textbfQuantTune を提案している。提案手法は, ViT, Bert-base, OPT など,トランスフォーマーベースモデルにおけるポストトレーニング量子化の大幅な改善を示す。
論文参考訳（メタデータ） (2024-03-11T08:09:30Z)
Error-aware Quantization through Noise Tempering [43.049102196902844]
量子化対応トレーニング(QAT)は、量子化エラーをシミュレートしながら、エンドタスクに関するモデルパラメータを最適化する。本研究では,指数関数的に減衰する量子化・エラー認識ノイズと,学習可能なタスク損失勾配のスケールを組み込んで量子化演算子の効果を近似する。本手法は, 従来の手法を0.5-1.2%絶対値で上回り, 均一な(非混合精度)量子化のための最先端トップ1分類精度を得る。
論文参考訳（メタデータ） (2022-12-11T20:37:50Z)
NoisyQuant: Noisy Bias-Enhanced Post-Training Activation Quantization for Vision Transformers [53.85087932591237]
NoisyQuantは、視覚変換器のトレーニング後のアクティベーション量子化性能に対する量子化器に依存しない拡張である。理論的な洞察に基づいて、NoisyQuantは重い尾の活性化分布を積極的に変化させる最初の成功を達成している。 NoisyQuantは、最小の計算オーバーヘッドで視覚変換器のトレーニング後の量子化性能を大幅に改善する。
論文参考訳（メタデータ） (2022-11-29T10:02:09Z)
BiTAT: Neural Network Binarization with Task-dependent Aggregated Transformation [116.26521375592759]
量子化は、与えられたニューラルネットワークの高精度ウェイトとアクティベーションを、メモリ使用量と計算量を減らすために、低精度ウェイト/アクティベーションに変換することを目的としている。コンパクトに設計されたバックボーンアーキテクチャの極端量子化(1ビットの重み/1ビットのアクティベーション)は、深刻な性能劣化をもたらす。本稿では,性能劣化を効果的に緩和する新しいQAT法を提案する。
論文参考訳（メタデータ） (2022-07-04T13:25:49Z)
Overcoming Oscillations in Quantization-Aware Training [18.28657022169428]
量子化をシミュレートしたニューラルネットワークをトレーニングする場合、量子化された重みは、予想外の2つのグリッドポイント間で振動する。その結果, バッチ正規化統計値の誤算により, 精度が著しく低下する可能性が示唆された。トレーニング中の振動を克服する2つの新しいQATアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-03-21T16:07:42Z)
Learnable Companding Quantization for Accurate Low-bit Neural Networks [3.655021726150368]
ディープニューラルネットワークの量子化は、メモリ消費の削減と推論速度の向上に有効な方法である。非常に低ビットモデルがフル精度モデルに匹敵する精度を達成することは、まだ困難です。 2,3,4ビットモデルのための新しい非一様量子化手法として学習可能なコンパイル量子化(LCQ)を提案する。
論文参考訳（メタデータ） (2021-03-12T09:06:52Z)
Direct Quantization for Training Highly Accurate Low Bit-width Deep Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文参考訳（メタデータ） (2020-12-26T15:21:18Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。