論文の概要: Sparse is Enough in Fine-tuning Pre-trained Large Language Model
- arxiv url: http://arxiv.org/abs/2312.11875v1
- Date: Tue, 19 Dec 2023 06:06:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-20 16:47:03.314456
- Title: Sparse is Enough in Fine-tuning Pre-trained Large Language Model
- Title(参考訳): Sparseは、微調整済みの大規模言語モデルで十分である
- Authors: Weixi Song, Zuchao Li, Lefei Zhang, Hai Zhao, Bo Du
- Abstract要約: 我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
- 参考スコア(独自算出の注目度): 105.63770797908127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the prevalence of pre-training-fine-tuning paradigm, how to efficiently
adapt the pre-trained model to the downstream tasks has been an intriguing
issue. Parameter-Efficient Fine-Tuning (PEFT) methods have been proposed for
low-cost adaptation, including Adapters, Bia-only, and the recently widely used
Low-Rank Adaptation. Although these methods have demonstrated their
effectiveness to some extent and have been widely applied, the underlying
principles are still unclear. In this paper, we reveal the transition of loss
landscape in the downstream domain from random initialization to pre-trained
initialization, that is, from low-amplitude oscillation to high-amplitude
oscillation. The parameter gradients exhibit a property akin to sparsity, where
a small fraction of components dominate the total gradient norm, for instance,
1% of the components account for 99% of the gradient. This property ensures
that the pre-trained model can easily find a flat minimizer which guarantees
the model's ability to generalize even with a low number of trainable
parameters. Based on this, we propose a gradient-based sparse fine-tuning
algorithm, named Sparse Increment Fine-Tuning (SIFT), and validate its
effectiveness on a range of tasks including the GLUE Benchmark and
Instruction-tuning. The code is accessible at https://github.com/song-wx/SIFT/.
- Abstract(参考訳): 事前学習-微調整パラダイムの普及に伴い、学習済みモデルを下流タスクに効率的に適応させる方法が興味深い問題となっている。
パラメータ効率の良いファインチューニング (PEFT) 法は, 適応器, Bia のみ, 最近広く用いられている低ランク適応など, 低コストな適応法として提案されている。
これらの手法はある程度有効性を実証し、広く適用されてきたが、基礎となる原則はまだ不明である。
本稿では,下流領域における損失景観のランダム初期化から事前学習初期化,すなわち低振幅発振から高振幅発振への移行を明らかにする。
パラメータ勾配はスパーシティに類似した性質を示し、例えば、部品の1%が勾配全体の99%を占める。
この特性により、事前訓練されたモデルは、訓練可能なパラメータの少ないモデルでも、モデルを一般化する能力を保証する平坦な最小化器を容易に見つけることができる。
そこで本研究では,sparse incremental fine-tuning (sift) という,勾配に基づくsparse fine-tuningアルゴリズムを提案し,glueベンチマークや命令チューニングなどのタスクでの有効性を検証する。
コードはhttps://github.com/song-wx/SIFT/でアクセスできる。
関連論文リスト
- PACE: marrying generalization in PArameter-efficient fine-tuning with Consistency rEgularization [35.922096876707975]
PACE は PArameter- efficient fine-tuning with Consistency rEgularization の一般化である。
PACEは、拡張一般化のための勾配を暗黙的に正規化するだけでなく、微調整および事前訓練されたモデルも暗黙的に整列して知識を保持することを示す。
PACEは、VTAB-1k、FGVC、少数ショット学習、ドメイン適応の4つの視覚適応タスクにおいて、既存のPEFTメソッドよりも優れている。
論文 参考訳(メタデータ) (2024-09-25T17:56:00Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - PAC-tuning:Fine-tuning Pretrained Language Models with PAC-driven
Perturbed Gradient Descent [11.866227238721939]
本稿では,この最適化課題に対処する2段階ファインチューニング手法であるPACチューニングを提案する。
PACチューニングは、適切なパラメータ分布を学習するために、PAC-Bayes境界を直接最小化する。
第2に、PACチューニングは、トレーニング中にモデルパラメータに学習したノイズを注入することで勾配を調整し、摂動降下の変異をもたらす。
論文 参考訳(メタデータ) (2023-10-26T17:09:13Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Proposal Distribution Calibration for Few-Shot Object Detection [65.19808035019031]
few-shot object detection (FSOD)では、重度のサンプル不均衡を軽減するために、2段階の訓練パラダイムが広く採用されている。
残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。
本稿では,RoIヘッドのローカライゼーションと分類能力を高めるために,単純かつ効果的な提案分布キャリブレーション(PDC)手法を提案する。
論文 参考訳(メタデータ) (2022-12-15T05:09:11Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。