Fugu-MT 論文翻訳(概要): Quadapter: Adapter for GPT-2 Quantization

論文の概要: Quadapter: Adapter for GPT-2 Quantization

arxiv url: http://arxiv.org/abs/2211.16912v1
Date: Wed, 30 Nov 2022 11:20:33 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-01 17:34:05.301375
Title: Quadapter: Adapter for GPT-2 Quantization
Title（参考訳）: quadapter: gpt-2量子化用アダプタ
Authors: Minseop Park, Jaeseong You, Markus Nagel, Simyung Chang
Abstract要約: GPT-2のようなトランスフォーマー言語モデルは、アクティベーションの外れ値が大きな量子化誤差につながるため、定量化が難しい。チャネル的に拡張することで、アクティベーションを量子化フレンドリにするための量子化アダプタ(Quadapter)を導入する。
参考スコア（独自算出の注目度）: 12.851941377433286
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer language models such as GPT-2 are difficult to quantize because of outliers in activations leading to a large quantization error. To adapt to the error, one must use quantization-aware training, which entails a fine-tuning process based on the dataset and the training pipeline identical to those for the original model. Pretrained language models, however, often do not grant access to their datasets and training pipelines, forcing us to rely on arbitrary ones for fine-tuning. In that case, it is observed that quantization-aware training overfits the model to the fine-tuning data. For quantization without overfitting, we introduce a quantization adapter (Quadapter), a small set of parameters that are learned to make activations quantization-friendly by scaling them channel-wise. It keeps the model parameters unchanged. By applying our method to the challenging task of quantizing GPT-2, we demonstrate that it effectively prevents the overfitting and improves the quantization performance.
Abstract（参考訳）: GPT-2のようなトランスフォーマー言語モデルは、アクティベーションの外れ値が大きな量子化誤差につながるため、定量化が難しい。エラーに対応するためには、データセットに基づく微調整プロセスと、元のモデルと同一のトレーニングパイプラインを含む量子化アウェアトレーニングを使用する必要がある。しかしながら、事前トレーニングされた言語モデルは、多くの場合、データセットやトレーニングパイプラインへのアクセスを許可しません。その場合、量子化を意識したトレーニングは、微調整データにモデルをオーバーフィットする。過度に適合しない量子化には、チャネルワイズでアクティベーションを量子化しやすいものにするために学習した小さなパラメータセットである量子化アダプタ(Quadapter)を導入する。モデルパラメータは変更されない。本手法をGPT-2の量子化課題に適用することにより,過剰適合を効果的に防止し,量子化性能を向上させることを示す。

関連論文リスト

QWHA: Quantization-Aware Walsh-Hadamard Adaptation for Parameter-Efficient Fine-Tuning on Large Language Models [14.492535012602625]
本稿では,Walsh-Hadamard Transform (WHT) を変換カーネルとして利用することにより,FTベースのアダプタを量子化モデルに統合する手法を提案する。我々はQWHAが微調整を容易にしながら量子化誤差を効果的に軽減し,その設計によって計算コストを大幅に削減できることを実証した。
論文参考訳（メタデータ） (2025-09-22T07:21:41Z)
Low-bit Model Quantization for Deep Neural Networks: A Survey [123.89598730307208]
本稿では、ディープニューラルネットワーク(DNN)における低ビット量子化に向けた最近の5年間の進歩について調査する。我々は最先端の量子化手法を議論し、それらのコア技術に基づいて8つの主要なカテゴリと24のサブカテゴリに分類する。我々は、モデル量子化の分野における潜在的研究の機会に光を当てた。
論文参考訳（メタデータ） (2025-05-08T13:26:19Z)
Enhancing Ultra-Low-Bit Quantization of Large Language Models Through Saliency-Aware Partial Retraining [0.0]
トレーニング後の量子化は、精度の低下を犠牲にして、モデルサイズを効率的に削減する。量子化学習(quantization-aware training)は、精度を向上するが、リソース集約である。本稿では,ApiQ上に構築した超低ビット量子化手法を提案する。
論文参考訳（メタデータ） (2025-04-14T19:31:21Z)
RoSTE: An Efficient Quantization-Aware Supervised Fine-Tuning Approach for Large Language Models [53.571195477043496]
本稿では,RoSTE (Rotated Straight-Through-Estimator) というアルゴリズムを提案する。 RoSTEは、量子化を意識した微調整(QA-SFT)と適応的な回転戦略を組み合わせることで、アクティベーションアウトリーを減少させる。その結果, 予測誤差は収束重みの量子化誤差と直接比例し, 最適化された回転構成により効果的に管理できることが判明した。
論文参考訳（メタデータ） (2025-02-13T06:44:33Z)
MetaAug: Meta-Data Augmentation for Post-Training Quantization [32.02377559968568]
トレーニング後の量子化(PTQ)は、完全な精度モデルを定量化するために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。本稿では,ポストトレーニング量子化の性能向上のためのメタラーニングに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2024-07-20T02:18:51Z)
Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文参考訳（メタデータ） (2024-04-04T17:25:30Z)
Test-Time Model Adaptation with Only Forward Passes [68.11784295706995]
テストタイム適応は、トレーニング済みのモデルを、潜在的に分布シフトのある未確認テストサンプルに適応させるのに有効であることが証明されている。テスト時間フォワード最適化適応法(FOA)を提案する。 FOAは量子化された8ビットのViTで動作し、32ビットのViTで勾配ベースのTENTより優れ、ImageNet-Cで最大24倍のメモリ削減を実現する。
論文参考訳（メタデータ） (2024-04-02T05:34:33Z)
Norm Tweaking: High-performance Low-bit Quantization of Large Language Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文参考訳（メタデータ） (2023-09-06T06:51:15Z)
NUPES : Non-Uniform Post-Training Quantization via Power Exponent Search [7.971065005161565]
量子化は浮動小数点表現を低ビット幅の固定点表現に変換する技術である。量子化空間全体にわたって新しい量子化重みを学習する方法を示す。本研究では,データフリーとデータ駆動の両構成において,最先端の圧縮率を実現する手法の有効性を示す。
論文参考訳（メタデータ） (2023-08-10T14:19:58Z)
PreQuant: A Task-agnostic Quantization Approach for Pre-trained Language Models [52.09865918265002]
ファインチューニングのフレームワークPreQuantに先立って,新しい量子化を提案する。 PreQuantは様々な量子化戦略と互換性があり、インダクションされた量子化誤差を修正するために、アウタリア対応の微調整が組み込まれている。 BERT,RoBERTa,T5を用いたGLUEベンチマークにおけるPreQuantの有効性を示す。
論文参考訳（メタデータ） (2023-05-30T08:41:33Z)
Learning Representations for CSI Adaptive Quantization and Feedback [51.14360605938647]
本稿では,周波数分割二重化システムにおける適応量子化とフィードバックの効率的な手法を提案する。既存の研究は主に、CSI圧縮のためのオートエンコーダ(AE)ニューラルネットワークの実装に焦点を当てている。 1つはポストトレーニング量子化に基づくもので、もう1つはAEのトレーニング中にコードブックが見つかる方法である。
論文参考訳（メタデータ） (2022-07-13T08:52:13Z)
One Model for All Quantization: A Quantized Network Supporting Hot-Swap Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。重みの多様性を高めるためにウェーブレット分解と再構成を用いる。同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文参考訳（メタデータ） (2021-05-04T08:10:50Z)
Zero-shot Adversarial Quantization [11.722728148523366]
ゼロショット逆量子化(ZAQ: Zero-shot adversarial quantization)フレームワークを提案し,効果的な不一致推定と知識伝達を容易にする。これは、情報的で多様なデータ例を合成するためにジェネレータを駆動する、新しい2レベル不一致モデリングによって達成される。強力なゼロショットベースラインに対してZAQの優位性を示す3つの基本的なビジョンタスクについて広範な実験を行います。
論文参考訳（メタデータ） (2021-03-29T01:33:34Z)
Adaptive Quantization of Model Updates for Communication-Efficient Federated Learning [75.45968495410047]
クライアントノードと中央集約サーバ間のモデル更新の通信は、連合学習において大きなボトルネックとなる。グラディエント量子化(Gradient Quantization)は、各モデル更新間の通信に必要なビット数を削減する効果的な方法である。通信効率と低エラーフロアを実現することを目的としたAdaFLと呼ばれる適応量子化戦略を提案する。
論文参考訳（メタデータ） (2021-02-08T19:14:21Z)
Gradient $\ell_1$ Regularization for Quantization Robustness [70.39776106458858]
トレーニング後の量子化に対するロバスト性を改善するための単純な正規化スキームを導出する。量子化対応ネットワークをトレーニングすることにより、異なるビット幅にオンデマンドで量子化できる1組の重みを格納できる。
論文参考訳（メタデータ） (2020-02-18T12:31:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。