Fugu-MT 論文翻訳(概要): AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models

論文の概要: AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models

arxiv url: http://arxiv.org/abs/2210.03858v1
Date: Sat, 8 Oct 2022 00:36:00 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-11 14:50:06.540920
Title: AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of Large-Scale Pre-Trained Language Models
Title（参考訳）: AlphaTuning:大規模事前学習言語モデルの量子化を考慮したパラメータ適応
Authors: Se Jung Kwon, Jeonghoon Kim, Jeongin Bae, Kang Min Yoo, Jin-Hwa Kim, Baeseong Park, Byeongwook Kim, Jung-Woo Ha, Nako Sung and Dongsoo Lee
Abstract要約: 我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
参考スコア（独自算出の注目度）: 19.640997611256168
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There are growing interests in adapting large-scale language models using parameter-efficient fine-tuning methods. However, accelerating the model itself and achieving better inference efficiency through model compression has not been thoroughly explored yet. Model compression could provide the benefits of reducing memory footprints, enabling low-precision computations, and ultimately achieving cost-effective inference. To combine parameter-efficient adaptation and model compression, we propose AlphaTuning consisting of post-training quantization of the pre-trained language model and fine-tuning only some parts of quantized parameters for a target task. Specifically, AlphaTuning works by employing binary-coding quantization, which factorizes the full-precision parameters into binary parameters and a separate set of scaling factors. During the adaptation phase, the binary values are frozen for all tasks, while the scaling factors are fine-tuned for the downstream task. We demonstrate that AlphaTuning, when applied to GPT-2 and OPT, performs competitively with full fine-tuning on a variety of downstream tasks while achieving >10x compression ratio under 4-bit quantization and >1,000x reduction in the number of trainable parameters.
Abstract（参考訳）: パラメータ効率のよい微調整手法による大規模言語モデルの適応への関心が高まっている。しかし、モデル自体の高速化とモデル圧縮による推論効率の向上は、まだ十分に検討されていない。モデル圧縮は、メモリフットプリントを削減し、低精度計算を可能にし、最終的にコスト効率のよい推論を可能にする。パラメータ効率の良い適応とモデル圧縮を組み合わせるために,事前学習後の言語モデルの量子化と,対象タスクの量子化パラメータの一部のみを微調整したアルファチューニングを提案する。具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータと別のスケーリングファクタに分解する。適応フェーズでは、すべてのタスクに対してバイナリ値が凍結され、ダウンストリームタスクにはスケーリング係数が微調整される。 GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。

関連論文リスト

Hyper Compressed Fine-Tuning of Large Foundation Models with Quantum Inspired Adapters [0.0]
emphQuantum-Inspired Adaptersは、量子機械学習文学のハミング級量子回路にインスパイアされたPEFTアプローチである。提案するアダプタは,ベンチマークデータセットに大規模言語モデルと大規模視覚変換器を適用して検証する。
論文参考訳（メタデータ） (2025-02-10T13:06:56Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文参考訳（メタデータ） (2024-12-17T14:33:05Z)
ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文参考訳（メタデータ） (2024-12-11T12:31:30Z)
SoftLMs: Efficient Adaptive Low-Rank Approximation of Language Models using Soft-Thresholding Mechanism [1.7170348600689374]
本稿では,ソフトしきい値設定機構を用いて各層のランクを動的に決定する新しい圧縮手法を提案する。本手法は,識別タスクのBERTや生成タスクのGPT2,TinyLlamaなど,注目に基づくアーキテクチャに適用可能である。実験により,提案手法はエンコーダ/デコーダにおける1.33Xから1.72Xの高速化を実現し,全パラメータの50%削減を実現した。
論文参考訳（メタデータ） (2024-11-15T19:29:51Z)
Propulsion: Steering LLM with Tiny Fine-Tuning [0.0]
本稿では,タスク固有性能を最適化するために,新しいパラメータ最適化手法であるPropulsionを提案する。物理運動の制御調整の概念にインスパイアされた推進は、事前訓練されたモデルの特定の次元を選択的に再スケールする。我々の理論解析はニューラル・タンジェント・カーネル(NTK)理論によって支えられ、推進は訓練可能なパラメータがはるかに少ない完全な微調整の性能を近似することを示している。
論文参考訳（メタデータ） (2024-09-17T06:51:59Z)
Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文参考訳（メタデータ） (2024-07-08T12:32:51Z)
ETHER: Efficient Finetuning of Large-Scale Models with Hyperplane Reflections [59.839926875976225]
本稿では,HypErplane Reflectionsによる高効率微調整を行うETHER変換ファミリを提案する。特に,既存のPEFT法と極めて少ないパラメータで一致または性能を向上するEtheRと緩和ETHER+を導入する。
論文参考訳（メタデータ） (2024-05-30T17:26:02Z)
PV-Tuning: Beyond Straight-Through Estimation for Extreme LLM Compression [31.30170080420504]
最先端の量子化手法には、限られたキャリブレーションデータに対する圧縮パラメータの微調整(一部)が含まれる。既存の微調整戦略を一般化し改善する表現に依存しないフレームワークであるPV-Tuningを提案する。
論文参考訳（メタデータ） (2024-05-23T17:57:04Z)
E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2023-07-25T19:03:21Z)
Scaling & Shifting Your Features: A New Baseline for Efficient Model Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文参考訳（メタデータ） (2022-10-17T08:14:49Z)
Automatic Mixed-Precision Quantization Search of BERT [62.65905462141319]
BERTのような事前訓練された言語モデルは、様々な自然言語処理タスクにおいて顕著な効果を示している。これらのモデルは通常、数百万のパラメータを含んでおり、リソースに制約のあるデバイスへの実践的なデプロイを妨げている。本稿では,サブグループレベルでの量子化とプルーニングを同時に行うことができるBERT用に設計された混合精密量子化フレームワークを提案する。
論文参考訳（メタデータ） (2021-12-30T06:32:47Z)
Intrinsic Dimensionality Explains the Effectiveness of Language Model Fine-Tuning [52.624194343095304]
我々は、内在次元のレンズを通して微調整を分析することは、経験的および理論的直観をもたらすと論じる。実験により、一般的な事前学習モデルは本質的な次元が極めて低いことを示す。
論文参考訳（メタデータ） (2020-12-22T07:42:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。