論文の概要: Arbitrary Few Parameters are Good Enough for Adapting Large-scale
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.02320v1
- Date: Sun, 4 Jun 2023 10:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:37:39.568322
- Title: Arbitrary Few Parameters are Good Enough for Adapting Large-scale
Pre-trained Language Models
- Title(参考訳): 任意パラメータは大規模事前学習言語モデルに適応するのに十分である
- Authors: Yusheng Su, Chi-Min Chan, Jiali Cheng, Yujia Qin, Yankai Lin,
Shengding Hu, Zonghan Yang, Ning Ding, Zhiyuan Liu, Maosong Sun
- Abstract要約: 任意のモジュール構造やトレーニング可能なパラメータの数と互換性を持つ、より柔軟なPET法(任意のPET(APET)法)を導入する。
モデルスケーリングは,任意のモジュール構造がチューニング手法の性能に与える影響を緩和する。
また、PLMを駆動するためには、全てのチューニング手法がほぼ同じ数のトレーニング可能なパラメータを必要とすることも観察した。
- 参考スコア(独自算出の注目度): 85.96896995094832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient tuning (PET) methods can effectively drive extremely
large pre-trained language models (PLMs) by only training minimal parameters.
Different PET methods utilize different manually designed modules. In a small
PLM, there are usually noticeable performance differences among PET methods.
Nevertheless, when a PLM's scale grows up to tens of billions of parameters,
all PET methods achieve almost the same performance and even perform on par
with the full-parameter fine-tuning method. Hence, we hypothesize that model
scaling can mitigate the design differences (the module structures and the
number of trainable parameters) among PET methods. To study this hypothesis, we
introduce a more flexible PET method - arbitrary PET (APET) method - to be
compatible with arbitrary module structures and any number of trainable
parameters. Then, we experiment on $11$ NLP tasks of $5$ types and $2$
representative PLMs. From our investigations, we find that the model scaling
(1) mitigates the effects of the arbitrary module structure on the performance
of tuning methods, and (2) enables the tuning methods to optimize fewer
parameters to achieve the full-parameter fine-tuning performance. Intriguingly,
we also observe that all tuning methods require almost the same number of
trainable parameters to drive PLMs. We discuss this phenomenon and the above
two findings collectively from optimization perspectives to fathom the
mechanisms behind them. These conclusions not only demonstrate the positive
impact of model scaling on tuning methods but disclose its mechanisms, which
help us design more effective and efficient tuning methods on larger-scale
PLMs.
- Abstract(参考訳): パラメータ効率チューニング(PET)法は、最小パラメータのみを訓練することで、非常に大きな事前学習言語モデル(PLM)を効果的に駆動することができる。
異なるPET法は異なる手動設計モジュールを利用する。
小型PLMでは、PET法には通常顕著な性能差がある。
それでも、PLMのスケールが数千億のパラメータまで大きくなると、すべてのPET法はほぼ同じ性能を達成し、フルパラメータの微調整法と同等の性能を発揮する。
したがって,モデルスケーリングはPET法における設計の違い(モジュール構造とトレーニング可能なパラメータの数)を軽減することができると仮定する。
この仮説を検討するために、任意のモジュール構造やトレーニング可能なパラメータの数に適合する、より柔軟なPET法、任意のPET法(APET)を導入する。
次に、11ドルのNLPタスクを5ドルのタイプと2ドルの代表的PLMで実験する。
本研究から,モデルスケーリング(1)は,任意のモジュール構造がチューニング手法の性能に与える影響を緩和し,(2)より少ないパラメータを最適化し,フルパラメータの微調整性能を実現する。
興味深いことに、全てのチューニング手法はPLMを動かすのにほぼ同じ数のトレーニング可能なパラメータを必要とする。
本稿では,この現象と,それらの背後にあるメカニズムを太くする最適化の観点から,上記の2つの知見をまとめて論じる。
これらの結論は、モデルスケーリングがチューニング方法に与える影響を実証するだけでなく、そのメカニズムを開示し、大規模PLM上でより効率的かつ効率的なチューニング手法を設計するのに役立つ。
関連論文リスト
- When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - ConPET: Continual Parameter-Efficient Tuning for Large Language Models [65.48107393731861]
継続的な学習には、新しいタスクへのモデルの継続的な適応が必要である。
継続性を提案する。
効率的なチューニング(ConPET) - 一般化可能なパラダイム。
大規模言語モデルの連続的なタスク適応。
論文 参考訳(メタデータ) (2023-09-26T08:52:04Z) - CPET: Effective Parameter-Efficient Tuning for Compressed Large Language
Models [86.63730733413796]
圧縮言語モデル(LLM)に基づく効果的なPETフレームワークを提案する。
主流圧縮技術がPET性能に与える影響を評価する。
次に,これらの圧縮技術によって引き起こされる知識損失を回復するために,知識継承と回復戦略を導入する。
論文 参考訳(メタデータ) (2023-07-15T04:37:11Z) - Gradient-Based Automated Iterative Recovery for Parameter-Efficient
Tuning [11.124310650599146]
我々はTracInを用いてパラメータ効率チューニング(PET)設定におけるモデル性能を改善する。
モデル性能を改善するために,勾配に基づく説明可能性技術を用いた新しい手法を開発した。
論文 参考訳(メタデータ) (2023-02-13T18:54:58Z) - KronA: Parameter Efficient Tuning with Kronecker Adapter [17.175408603709712]
我々は、Kronecker製品ベースのアダプタモジュールであるKronAを導入し、TransformerベースのPLMを効率的に微調整する。
提案手法をGLUEベンチマークに応用し, Kronecker をベースとしたモジュールを組み込むことで, 最先端の PET 手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-12-20T20:56:52Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Sparse Structure Search for Parameter-Efficient Tuning [85.49094523664428]
S$3$PETは、トレーニング可能なパラメータの少ない手動およびランダムな構造を超えることを示す。
探索された構造は、0.01%のトレーニング可能なパラメータで99%以上の微調整性能を維持している。
論文 参考訳(メタデータ) (2022-06-15T08:45:21Z) - Revisiting Parameter-Efficient Tuning: Are We Really There Yet? [33.13293845589329]
PETuning法はファインタニングと同等かそれ以上のパフォーマンスを達成したと主張している。
本研究はPETuning法について,PETuning法の訓練と評価に関する総合的研究を行い,PETuning法を再検討するものである。
論文 参考訳(メタデータ) (2022-02-16T10:11:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。