論文の概要: Quadapter: Adapter for GPT-2 Quantization
- arxiv url: http://arxiv.org/abs/2211.16912v1
- Date: Wed, 30 Nov 2022 11:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 17:34:05.301375
- Title: Quadapter: Adapter for GPT-2 Quantization
- Title(参考訳): quadapter: gpt-2量子化用アダプタ
- Authors: Minseop Park, Jaeseong You, Markus Nagel, Simyung Chang
- Abstract要約: GPT-2のようなトランスフォーマー言語モデルは、アクティベーションの外れ値が大きな量子化誤差につながるため、定量化が難しい。
チャネル的に拡張することで、アクティベーションを量子化フレンドリにするための量子化アダプタ(Quadapter)を導入する。
- 参考スコア(独自算出の注目度): 12.851941377433286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer language models such as GPT-2 are difficult to quantize because
of outliers in activations leading to a large quantization error. To adapt to
the error, one must use quantization-aware training, which entails a
fine-tuning process based on the dataset and the training pipeline identical to
those for the original model. Pretrained language models, however, often do not
grant access to their datasets and training pipelines, forcing us to rely on
arbitrary ones for fine-tuning. In that case, it is observed that
quantization-aware training overfits the model to the fine-tuning data. For
quantization without overfitting, we introduce a quantization adapter
(Quadapter), a small set of parameters that are learned to make activations
quantization-friendly by scaling them channel-wise. It keeps the model
parameters unchanged. By applying our method to the challenging task of
quantizing GPT-2, we demonstrate that it effectively prevents the overfitting
and improves the quantization performance.
- Abstract(参考訳): GPT-2のようなトランスフォーマー言語モデルは、アクティベーションの外れ値が大きな量子化誤差につながるため、定量化が難しい。
エラーに対応するためには、データセットに基づく微調整プロセスと、元のモデルと同一のトレーニングパイプラインを含む量子化アウェアトレーニングを使用する必要がある。
しかしながら、事前トレーニングされた言語モデルは、多くの場合、データセットやトレーニングパイプラインへのアクセスを許可しません。
その場合、量子化を意識したトレーニングは、微調整データにモデルをオーバーフィットする。
過度に適合しない量子化には、チャネルワイズでアクティベーションを量子化しやすいものにするために学習した小さなパラメータセットである量子化アダプタ(Quadapter)を導入する。
モデルパラメータは変更されない。
本手法をGPT-2の量子化課題に適用することにより,過剰適合を効果的に防止し,量子化性能を向上させることを示す。
関連論文リスト
- MetaAug: Meta-Data Augmentation for Post-Training Quantization [32.02377559968568]
トレーニング後の量子化(PTQ)は、完全な精度モデルを定量化するために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。
本稿では,ポストトレーニング量子化の性能向上のためのメタラーニングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-20T02:18:51Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。
テスト時間フォワード最適化適応法(FOA)を提案する。
FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文 参考訳(メタデータ) (2024-04-02T05:34:33Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。
量子化空間全体にわたって新しい量子化重みを学習する方法を示す。
本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文 参考訳(メタデータ) (2023-08-10T14:19:58Z) - PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language
Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。
PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。
BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文 参考訳(メタデータ) (2023-05-30T08:41:33Z) - Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。
既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。
1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文 参考訳(メタデータ) (2022-07-13T08:52:13Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。
これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。
強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文 参考訳(メタデータ) (2021-03-29T01:33:34Z) - Adaptive Quantization of Model Updates for Communication-Efficient
Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。
グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。
通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文 参考訳(メタデータ) (2021-02-08T19:14:21Z) - Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。
量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文 参考訳(メタデータ) (2020-02-18T12:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。