論文の概要: Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models
- arxiv url: http://arxiv.org/abs/2203.06904v1
- Date: Mon, 14 Mar 2022 07:56:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-15 13:04:07.183174
- Title: Delta Tuning: A Comprehensive Study of Parameter Efficient Methods for
Pre-trained Language Models
- Title(参考訳): Delta Tuning:事前学習型言語モデルのためのパラメータ効率的な手法の総合的研究
- Authors: Ning Ding, Yujia Qin, Guang Yang, Fuchao Wei, Zonghan Yang, Yusheng
Su, Shengding Hu, Yulin Chen, Chi-Min Chan, Weize Chen, Jing Yi, Weilin Zhao,
Xiaozhi Wang, Zhiyuan Liu, Hai-Tao Zheng, Jianfei Chen, Yang Liu, Jie Tang,
Juanzi Li, Maosong Sun
- Abstract要約: 標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部を微調整するだけであり、残りは触れないままである。
近年の研究では、パラメータ選択の異なる一連のデルタチューニング手法が、フルパラメータの微調整と同等の性能を達成できることが示されている。
- 参考スコア(独自算出の注目度): 90.24999406296867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the success, the process of fine-tuning large-scale PLMs brings
prohibitive adaptation costs. In fact, fine-tuning all the parameters of a
colossal model and retaining separate instances for different tasks are
practically infeasible. This necessitates a new branch of research focusing on
the parameter-efficient adaptation of PLMs, dubbed as delta tuning in this
paper. In contrast with the standard fine-tuning, delta tuning only fine-tunes
a small portion of the model parameters while keeping the rest untouched,
largely reducing both the computation and storage costs. Recent studies have
demonstrated that a series of delta tuning methods with distinct tuned
parameter selection could achieve performance on a par with full-parameter
fine-tuning, suggesting a new promising way of stimulating large-scale PLMs. In
this paper, we first formally describe the problem of delta tuning and then
comprehensively review recent delta tuning approaches. We also propose a
unified categorization criterion that divide existing delta tuning methods into
three groups: addition-based, specification-based, and reparameterization-based
methods. Though initially proposed as an efficient method to steer large
models, we believe that some of the fascinating evidence discovered along with
delta tuning could help further reveal the mechanisms of PLMs and even deep
neural networks. To this end, we discuss the theoretical principles underlying
the effectiveness of delta tuning and propose frameworks to interpret delta
tuning from the perspective of optimization and optimal control, respectively.
Furthermore, we provide a holistic empirical study of representative methods,
where results on over 100 NLP tasks demonstrate a comprehensive performance
comparison of different approaches. The experimental results also cover the
analysis of combinatorial, scaling and transferable properties of delta tuning.
- Abstract(参考訳): 成功にもかかわらず、大規模なPLMを微調整するプロセスは、違法な適応コストをもたらす。
実際、余剰モデルのパラメータをすべて微調整し、異なるタスクに対して別々のインスタンスを保持することは事実上不可能である。
本論文では, デルタチューニングと呼ばれる, PLMのパラメータ効率適応に着目した新たな研究分野が必要である。
標準の微調整とは対照的に、デルタチューニングはモデルパラメータのごく一部だけを微調整し、残りは無修正にし、計算とストレージのコストを大幅に削減する。
最近の研究では、パラメータ選択の異なる一連のデルタ調律法がフルパラメータの微調整と同等の性能を達成できることが示されており、大規模plmを刺激する新しい有望な方法が示唆されている。
本稿では,まずデルタチューニングの問題について述べるとともに,最近のデルタチューニング手法を概観する。
また,既存のデルタチューニング手法を加算法,仕様法,パラメータ化法という3つのグループに分割する統合分類基準を提案する。
当初は大きなモデルを操る効率的な方法として提案されていたが、デルタチューニングとともに発見された興味深い証拠の一部は、PLMや深層ニューラルネットワークのメカニズムを明らかにするのに役立つと信じている。
そこで本研究では,デルタチューニングの有効性の基礎となる理論原理について論じ,最適化と最適制御の観点からデルタチューニングを解釈するフレームワークを提案する。
さらに,100以上のNLPタスクの結果が,様々な手法の総合的な性能比較を示す代表手法に関する総合的な実証的研究を行った。
実験結果は、デルタチューニングの組合せ、スケーリング、転送可能な特性の分析もカバーしている。
関連論文リスト
- Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - A Unified View of Delta Parameter Editing in Post-Trained Large-Scale Models [45.82689769685688]
ポストトレーニングは、様々なタスクに大規模な事前訓練モデルを適用するための重要なパラダイムとして現れている。
本稿では,DARE や BitDelta などの既存手法を拡張して,訓練後モデルにおけるデルタパラメータ編集の適用性と有効性を高める。
論文 参考訳(メタデータ) (2024-10-17T17:56:53Z) - SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - OpenDelta: A Plug-and-play Library for Parameter-efficient Adaptation of
Pre-trained Models [81.7855202178564]
我々は,様々なデルタチューニング手法のプラグアンドプレイ実装を提供することで,制限を克服するオープンソースライブラリであるOpenDeltaを提案する。
我々の新しい技術は、バックボーン PTM のコードを変更する必要をなくし、OpenDelta を異なる新しい PTM と互換性を持たせる。
論文 参考訳(メタデータ) (2023-07-05T16:30:14Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。