論文の概要: Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2203.06904v1
- Date: Mon, 14 Mar 2022 07:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 13:04:07.183174
- Title: Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models
- Title(参考訳): Delta Tuning:事前学習型言語モデルのためのパラメータ効率的な手法の総合的研究
- Authors: Ning Ding, Yujia Qin, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng
Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao,
Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang,
Juanzi Li, Maosong Sun
- Abstract要約: 標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
- 参考スコア(独自算出の注目度): 90.24999406296867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success, the process of fine-tuning large-scale PLMs brings
prohibitive adaptation costs. In fact, fine-tuning all the parameters of a
colossal model and retaining separate instances for different tasks are
practically infeasible. This necessitates a new branch of research focusing on
the parameter-efficient adaptation of PLMs, dubbed as delta tuning in this
paper. In contrast with the standard fine-tuning, delta tuning only fine-tunes
a small portion of the model parameters while keeping the rest untouched,
largely reducing both the computation and storage costs. Recent studies have
demonstrated that a series of delta tuning methods with distinct tuned
parameter selection could achieve performance on a par with full-parameter
fine-tuning, suggesting a new promising way of stimulating large-scale PLMs. In
this paper, we first formally describe the problem of delta tuning and then
comprehensively review recent delta tuning approaches. We also propose a
unified categorization criterion that divide existing delta tuning methods into
three groups: addition-based, specification-based, and reparameterization-based
methods. Though initially proposed as an efficient method to steer large
models, we believe that some of the fascinating evidence discovered along with
delta tuning could help further reveal the mechanisms of PLMs and even deep
neural networks. To this end, we discuss the theoretical principles underlying
the effectiveness of delta tuning and propose frameworks to interpret delta
tuning from the perspective of optimization and optimal control, respectively.
Furthermore, we provide a holistic empirical study of representative methods,
where results on over 100 NLP tasks demonstrate a comprehensive performance
comparison of different approaches. The experimental results also cover the
analysis of combinatorial, scaling and transferable properties of delta tuning.
- Abstract(参考訳): 成功にもかかわらず、大規模なPLMを微調整するプロセスは、違法な適応コストをもたらす。
実際、余剰モデルのパラメータをすべて微調整し、異なるタスクに対して別々のインスタンスを保持することは事実上不可能である。
本論文では, デルタチューニングと呼ばれる, PLMのパラメータ効率適応に着目した新たな研究分野が必要である。
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部だけを微調整し、残りは無修正にし、計算とストレージのコストを大幅に削減する。
最近の研究では、パラメータ選択の異なる一連のデルタ調律法がフルパラメータの微調整と同等の性能を達成できることが示されており、大規模plmを刺激する新しい有望な方法が示唆されている。
本稿では,まずデルタチューニングの問題について述べるとともに,最近のデルタチューニング手法を概観する。
また,既存のデルタチューニング手法を加算法,仕様法,パラメータ化法という3つのグループに分割する統合分類基準を提案する。
当初は大きなモデルを操る効率的な方法として提案されていたが、デルタチューニングとともに発見された興味深い証拠の一部は、PLMや深層ニューラルネットワークのメカニズムを明らかにするのに役立つと信じている。
そこで本研究では,デルタチューニングの有効性の基礎となる理論原理について論じ,最適化と最適制御の観点からデルタチューニングを解釈するフレームワークを提案する。
さらに,100以上のNLPタスクの結果が,様々な手法の総合的な性能比較を示す代表手法に関する総合的な実証的研究を行った。
実験結果は、デルタチューニングの組合せ、スケーリング、転送可能な特性の分析もカバーしている。
関連論文リスト
- DPPA: Pruning Method for Large Language Model to Model Merging [39.13317231533299]
本稿では、複雑な微調整モデルを統合するという課題に対処するため、DPPA(Dynamic Pruning Partition Amplification)と呼ばれる2段階の手法を提案する。
提案手法は,ドメイン固有のパラメータの20%しか保持せず,他の手法に匹敵する性能を提供する。
提案手法では, プレニング後の性能が優れており, モデルマージにおける性能が20%近く向上した。
論文 参考訳(メタデータ) (2024-03-05T09:12:49Z) - Astraios: Parameter-Efficient Instruction Tuning Code Large Language
Models [21.17021844323919]
Astraiosは7つのチューニングメソッドと最大16億のパラメータの4つのモデルサイズを使用して、命令チューニングされた28のOctoCoderモデルのスイートである。
その結果、FFTは全スケールで最高のダウンストリーム性能を示し、PEFT法はモデルスケールに基づいてその有効性に大きな違いがあることがわかった。
論文 参考訳(メタデータ) (2024-01-01T15:30:19Z) - Partial Fine-Tuning: A Successor to Full Fine-Tuning for Vision
Transformers [50.23439411530435]
部分微調整は、効率と精度を同時に向上できる革新的で有望な方向であることを示す。
部分的な微調整のための適切な層の選択を導くための,新しい微調整角度測定法を提案する。
広範囲のデータセットとモデルに関する包括的な実験は、部分的な微調整の大きな可能性を検証する。
論文 参考訳(メタデータ) (2023-12-25T10:11:34Z) - OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of
Pre-trained Models [81.7855202178564]
我々は,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することで,制限を克服するオープンソースライブラリであるOpenDeltaを提案する。
我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。
論文 参考訳(メタデータ) (2023-07-05T16:30:14Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - General Framework for Self-Supervised Model Priming for
Parameter-Efficient Fine-tuning [54.47460770634613]
本稿では,パラメータ効率の高い手法の少数ショット適応とクロスドメイン一般化能力を高めるための汎用フレームワークを提案する。
本フレームワークでは,パラメータ効率向上のための自己教師型モデルを用いて,下流の諸課題に迅速に適応する。
我々は160種類のNLPタスクを含む数ショットのクロスドメインベンチマークで実験を行った。
論文 参考訳(メタデータ) (2022-12-02T08:56:53Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。