論文の概要: AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models
- arxiv url: http://arxiv.org/abs/2210.03858v1
- Date: Sat, 8 Oct 2022 00:36:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:50:06.540920
- Title: AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models
- Title(参考訳): AlphaTuning:大規模事前学習言語モデルの量子化を考慮したパラメータ適応
- Authors: Se Jung Kwon, Jeonghoon Kim, Jeongin Bae, Kang Min Yoo, Jin-Hwa Kim,
Baeseong Park, Byeongwook Kim, Jung-Woo Ha, Nako Sung and Dongsoo Lee
- Abstract要約: 我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
- 参考スコア(独自算出の注目度): 19.640997611256168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There are growing interests in adapting large-scale language models using
parameter-efficient fine-tuning methods. However, accelerating the model itself
and achieving better inference efficiency through model compression has not
been thoroughly explored yet. Model compression could provide the benefits of
reducing memory footprints, enabling low-precision computations, and ultimately
achieving cost-effective inference. To combine parameter-efficient adaptation
and model compression, we propose AlphaTuning consisting of post-training
quantization of the pre-trained language model and fine-tuning only some parts
of quantized parameters for a target task. Specifically, AlphaTuning works by
employing binary-coding quantization, which factorizes the full-precision
parameters into binary parameters and a separate set of scaling factors. During
the adaptation phase, the binary values are frozen for all tasks, while the
scaling factors are fine-tuned for the downstream task. We demonstrate that
AlphaTuning, when applied to GPT-2 and OPT, performs competitively with full
fine-tuning on a variety of downstream tasks while achieving >10x compression
ratio under 4-bit quantization and >1,000x reduction in the number of trainable
parameters.
- Abstract(参考訳): パラメータ効率のよい微調整手法による大規模言語モデルの適応への関心が高まっている。
しかし、モデル自体の高速化とモデル圧縮による推論効率の向上は、まだ十分に検討されていない。
モデル圧縮は、メモリフットプリントを削減し、低精度計算を可能にし、最終的にコスト効率のよい推論を可能にする。
パラメータ効率の良い適応とモデル圧縮を組み合わせるために,事前学習後の言語モデルの量子化と,対象タスクの量子化パラメータの一部のみを微調整したアルファチューニングを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータと別のスケーリングファクタに分解する。
適応フェーズでは、すべてのタスクに対してバイナリ値が凍結され、ダウンストリームタスクにはスケーリング係数が微調整される。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
関連論文リスト
- SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。
本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。
実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文 参考訳(メタデータ) (2024-11-15T19:29:51Z) - Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。
物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。
我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文 参考訳(メタデータ) (2024-09-17T06:51:59Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。
特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文 参考訳(メタデータ) (2024-05-30T17:26:02Z) - PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression [31.30170080420504]
最先端の量子化手法には、限られたキャリブレーションデータに対する圧縮パラメータの微調整(一部)が含まれる。
既存の微調整戦略を一般化し改善する表現に依存しないフレームワークであるPV-Tuningを提案する。
論文 参考訳(メタデータ) (2024-05-23T17:57:04Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。
これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。
本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-30T06:32:47Z) - Intrinsic Dimensionality Explains the Effectiveness of Language Model
Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。
実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文 参考訳(メタデータ) (2020-12-22T07:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。