論文の概要: Parameter-Efficient Sparsity for Large Language Models Fine-Tuning
- arxiv url: http://arxiv.org/abs/2205.11005v1
- Date: Mon, 23 May 2022 02:43:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-29 14:07:02.394991
- Title: Parameter-Efficient Sparsity for Large Language Models Fine-Tuning
- Title(参考訳): 大規模言語モデルの微調整におけるパラメータ効率のスパーシティ
- Authors: Yuchao Li, Fuli Luo, Chuanqi Tan, Mengdi Wang, Songfang Huang, Shen
Li, Junjie Bai
- Abstract要約: 私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
- 参考スコア(独自算出の注目度): 63.321205487234074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the dramatically increased number of parameters in language models,
sparsity methods have received ever-increasing research focus to compress and
accelerate the models. While most research focuses on how to accurately retain
appropriate weights while maintaining the performance of the compressed model,
there are challenges in the computational overhead and memory footprint of
sparse training when compressing large-scale language models. To address this
problem, we propose a Parameter-efficient Sparse Training (PST) method to
reduce the number of trainable parameters during sparse-aware training in
downstream tasks. Specifically, we first combine the data-free and data-driven
criteria to efficiently and accurately measure the importance of weights. Then
we investigate the intrinsic redundancy of data-driven weight importance and
derive two obvious characteristics i.e., low-rankness and structuredness. Based
on that, two groups of small matrices are introduced to compute the data-driven
importance of weights, instead of using the original large importance score
matrix, which therefore makes the sparse training resource-efficient and
parameter-efficient. Experiments with diverse networks (i.e., BERT, RoBERTa and
GPT-2) on dozens of datasets demonstrate PST performs on par or better than
previous sparsity methods, despite only training a small number of parameters.
For instance, compared with previous sparsity methods, our PST only requires
1.5% trainable parameters to achieve comparable performance on BERT.
- Abstract(参考訳): 言語モデルにおけるパラメータの大幅な増加に伴い、スパーシティ法はモデルを圧縮し、加速する研究の焦点が増している。
ほとんどの研究は、圧縮モデルのパフォーマンスを維持しながら適切な重みを正しく保持する方法に焦点を当てているが、大規模な言語モデル圧縮時のスパーストレーニングの計算オーバーヘッドとメモリフットプリントの課題がある。
そこで本研究では,下流タスクにおけるスパースアウェアトレーニング時の学習可能なパラメータ数を削減するためのパラメータ効率の高いスパーストレーニング(pst)手法を提案する。
具体的には、まずデータフリーとデータ駆動の基準を組み合わせて、重みの重要性を効率的に正確に測定する。
次に,データ駆動重みの重要性に関する本質的冗長性を調査し,二つの明らかな特徴,すなわち低ランク性と構造性について考察する。
これに基づいて,2つの小さな行列群を導入して,データ駆動による重みの重みの重要さを計算し,従来の大きめのスコア行列を使わずに,スパーストレーニングの資源効率とパラメータ効率を両立させる。
数十のデータセット上の多様なネットワーク(BERT、RoBERTa、GPT-2)による実験では、少数のパラメータをトレーニングするだけで、PSTが従来の疎性メソッドよりも同等以上のパフォーマンスを示す。
例えば、従来のスパーシリティメソッドと比較すると、BERTで同等のパフォーマンスを達成するためにトレーニング可能なパラメータは1.5%しか必要ありません。
関連論文リスト
- LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、下流タスクのための大規模な事前学習モデルに効果的に適応する、PEFT (Efficient Fine Tuning) 手法として人気がある。
モデル更新に低階テンソルパラメトリゼーションを用いる新しい手法を提案する。
提案手法は,大規模言語モデルの微調整に有効であり,比較性能を維持しつつ,パラメータ数の大幅な削減を実現している。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - NEAT: Nonlinear Parameter-efficient Adaptation of Pre-trained Models [26.808251361020066]
微調整された事前訓練されたモデルは、リソース集約的で厳しい。
広く採用されているPEFT技術であるLoRA(Lo-Rank Adaptation)は、事前訓練されたモデルの重量を凍結する。
NEATは、トレーニング済みの重みを入力として取り込んだ軽量ニューラルネットワークを導入し、近似累積重み更新のための非線形変換を学習する。
論文 参考訳(メタデータ) (2024-10-02T17:29:23Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Scaling Laws for Sparsely-Connected Foundation Models [70.41266138010657]
大規模データセット上でトレーニングしたトランスフォーマーのスケーリング挙動に及ぼすパラメータ空間の影響について検討する。
重み空間,非ゼロパラメータ数,およびトレーニングデータの量との関係を記述した最初のスケーリング法則を同定する。
論文 参考訳(メタデータ) (2023-09-15T16:29:27Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - SPDF: Sparse Pre-training and Dense Fine-tuning for Large Language
Models [4.114555639014612]
本研究は,非構造的重み空間を用いて,事前訓練中にのみ重みのサブセットを訓練する利点を示す。
我々は1.3Bパラメータ GPT-3 XL モデルに最大75%の間隔を誘導できることを示す。
論文 参考訳(メタデータ) (2023-03-18T17:56:01Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - DSEE: Dually Sparsity-embedded Efficient Tuning of Pre-trained Language
Models [152.29364079385635]
事前訓練されたモデルが大きくなればなるほど、微調整のプロセスは時間がかかり、計算コストがかかる可能性がある。
本稿では,重み更新と最終モデルの重み付けに先立って,疎度を活用することで,資源・パラメータ効率の微調整を行うフレームワークを提案する。
提案するフレームワークは,Dually Sparsity-Embeded Efficient Tuning (DSEE)と呼ばれ,パラメータ効率のよい微調整とリソース効率の推論という2つの重要な目標を達成することを目的としている。
論文 参考訳(メタデータ) (2021-10-30T03:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。