論文の概要: Arbitrary Few Parameters are Good Enough for Adapting Large-scale
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2306.02320v1
- Date: Sun, 4 Jun 2023 10:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 18:37:39.568322
- Title: Arbitrary Few Parameters are Good Enough for Adapting Large-scale
Pre-trained Language Models
- Title(参考訳): 任意パラメータは大規模事前学習言語モデルに適応するのに十分である
- Authors: Yusheng Su, Chi-Min Chan, Jiali Cheng, Yujia Qin, Yankai Lin,
Shengding Hu, Zonghan Yang, Ning Ding, Zhiyuan Liu, Maosong Sun
- Abstract要約: 任意のモジュール構造やトレーニング可能なパラメータの数と互換性を持つ、より柔軟なPET法(任意のPET(APET)法)を導入する。
モデルスケーリングは,任意のモジュール構造がチューニング手法の性能に与える影響を緩和する。
また、PLMを駆動するためには、全てのチューニング手法がほぼ同じ数のトレーニング可能なパラメータを必要とすることも観察した。
- 参考スコア(独自算出の注目度): 85.96896995094832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter-efficient tuning (PET) methods can effectively drive extremely
large pre-trained language models (PLMs) by only training minimal parameters.
Different PET methods utilize different manually designed modules. In a small
PLM, there are usually noticeable performance differences among PET methods.
Nevertheless, when a PLM's scale grows up to tens of billions of parameters,
all PET methods achieve almost the same performance and even perform on par
with the full-parameter fine-tuning method. Hence, we hypothesize that model
scaling can mitigate the design differences (the module structures and the
number of trainable parameters) among PET methods. To study this hypothesis, we
introduce a more flexible PET method - arbitrary PET (APET) method - to be
compatible with arbitrary module structures and any number of trainable
parameters. Then, we experiment on $11$ NLP tasks of $5$ types and $2$
representative PLMs. From our investigations, we find that the model scaling
(1) mitigates the effects of the arbitrary module structure on the performance
of tuning methods, and (2) enables the tuning methods to optimize fewer
parameters to achieve the full-parameter fine-tuning performance. Intriguingly,
we also observe that all tuning methods require almost the same number of
trainable parameters to drive PLMs. We discuss this phenomenon and the above
two findings collectively from optimization perspectives to fathom the
mechanisms behind them. These conclusions not only demonstrate the positive
impact of model scaling on tuning methods but disclose its mechanisms, which
help us design more effective and efficient tuning methods on larger-scale
PLMs.
- Abstract(参考訳): パラメータ効率チューニング(PET)法は、最小パラメータのみを訓練することで、非常に大きな事前学習言語モデル(PLM)を効果的に駆動することができる。
異なるPET法は異なる手動設計モジュールを利用する。
小型PLMでは、PET法には通常顕著な性能差がある。
それでも、PLMのスケールが数千億のパラメータまで大きくなると、すべてのPET法はほぼ同じ性能を達成し、フルパラメータの微調整法と同等の性能を発揮する。
したがって,モデルスケーリングはPET法における設計の違い(モジュール構造とトレーニング可能なパラメータの数)を軽減することができると仮定する。
この仮説を検討するために、任意のモジュール構造やトレーニング可能なパラメータの数に適合する、より柔軟なPET法、任意のPET法(APET)を導入する。
次に、11ドルのNLPタスクを5ドルのタイプと2ドルの代表的PLMで実験する。
本研究から,モデルスケーリング(1)は,任意のモジュール構造がチューニング手法の性能に与える影響を緩和し,(2)より少ないパラメータを最適化し,フルパラメータの微調整性能を実現する。
興味深いことに、全てのチューニング手法はPLMを動かすのにほぼ同じ数のトレーニング可能なパラメータを必要とする。
本稿では,この現象と,それらの背後にあるメカニズムを太くする最適化の観点から,上記の2つの知見をまとめて論じる。
これらの結論は、モデルスケーリングがチューニング方法に与える影響を実証するだけでなく、そのメカニズムを開示し、大規模PLM上でより効率的かつ効率的なチューニング手法を設計するのに役立つ。
関連論文リスト
- UniPET-SPK: A Unified Framework for Parameter-Efficient Tuning of Pre-trained Speech Models for Robust Speaker Verification [32.3387409534726]
本研究では,大規模事前学習型SSL音声モデルの話者検証課題に対するパラメータ効率調整法について検討した。
i)アダプタチューニング法,(ii)プロンプトチューニング法,および(iii)動的に学習可能なゲーティング機構でアダプタチューニングとプロンプトチューニングを効果的に組み込んだ統合フレームワークの3つのPET手法を提案する。
提案したUniPET-SPKは、異なるデータセットとシナリオにマッチするPETメソッドの最適な混合を見つけることを学ぶ。
論文 参考訳(メタデータ) (2025-01-27T22:26:37Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Dynamic Subset Tuning: Expanding the Operational Range of Parameter-Efficient Training for Large Language Models [14.762222323897978]
大規模言語モデルのための新しいパラメータ効率訓練法を提案する。
従来の方法とは異なり、このサブセットはロケーションで固定されるのではなく、トレーニングの過程でどのパラメータが修正されるかである。
本手法により, モデル全体の任意の割合で, サブセットサイズをシームレスにスケーリングすることができる。
論文 参考訳(メタデータ) (2024-11-13T13:53:10Z) - When Scaling Meets LLM Finetuning: The Effect of Data, Model and
Finetuning Method [56.571951345048355]
大規模言語モデル(LLM)は、ダウンストリームアプリケーションにその機能をアンロックするためにファインチューニングを採用することが多い。
LLMモデルのサイズ、事前学習データサイズ、新しい微調整パラメータサイズ、微調整データサイズなどの異なるスケーリング要因が微調整性能に与える影響について検討した。
論文 参考訳(メタデータ) (2024-02-27T04:18:49Z) - ConPET: Continual Parameter-Efficient Tuning for Large Language Models [65.48107393731861]
継続的な学習には、新しいタスクへのモデルの継続的な適応が必要である。
継続性を提案する。
効率的なチューニング(ConPET) - 一般化可能なパラダイム。
大規模言語モデルの連続的なタスク適応。
論文 参考訳(メタデータ) (2023-09-26T08:52:04Z) - KronA: Parameter Efficient Tuning with Kronecker Adapter [17.175408603709712]
我々は、Kronecker製品ベースのアダプタモジュールであるKronAを導入し、TransformerベースのPLMを効率的に微調整する。
提案手法をGLUEベンチマークに応用し, Kronecker をベースとしたモジュールを組み込むことで, 最先端の PET 手法より優れていることを示す。
論文 参考訳(メタデータ) (2022-12-20T20:56:52Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Sparse Structure Search for Parameter-Efficient Tuning [85.49094523664428]
S$3$PETは、トレーニング可能なパラメータの少ない手動およびランダムな構造を超えることを示す。
探索された構造は、0.01%のトレーニング可能なパラメータで99%以上の微調整性能を維持している。
論文 参考訳(メタデータ) (2022-06-15T08:45:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。