論文の概要: Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models
- arxiv url: http://arxiv.org/abs/2412.03587v1
- Date: Tue, 26 Nov 2024 08:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-08 08:18:03.694955
- Title: Not All Adapters Matter: Selective Adapter Freezing for Memory-Efficient Fine-Tuning of Language Models
- Title(参考訳): すべてのアダプタが重要ではない: 言語モデルのメモリ効率の良い微調整のための選択型アダプタフリーズ
- Authors: Hyegang Son, Yonglak Son, Changhoon Kim, Young Geun Kim,
- Abstract要約: 早期訓練段階において適応に寄与しない重要でないアダプタを徐々に凍結するSAFEを提案する。
実験では,メモリ使用量,計算量,トレーニング時間をそれぞれ42.85%,34.59%,11.82%削減した。
- 参考スコア(独自算出の注目度): 10.593991842751631
- License:
- Abstract: Transformer-based large-scale pre-trained models achieve great success, and fine-tuning, which tunes a pre-trained model on a task-specific dataset, is the standard practice to utilize these models for downstream tasks. Recent work has developed adapter-tuning, but these approaches either still require a relatively high resource usage. Through our investigation, we show that each adapter in adapter-tuning does not have the same impact on task performance and resource usage. Based on our findings, we propose SAFE, which gradually freezes less-important adapters that do not contribute to adaptation during the early training steps. In our experiments, SAFE reduces memory usage, computation amount, and training time by 42.85\%, 34.59\%, and 11.82\%, respectively, while achieving comparable or better performance compared to the baseline. We also demonstrate that SAFE induces regularization effect, thereby smoothing the loss landscape.
- Abstract(参考訳): トランスフォーマーベースの大規模事前学習モデルは大きな成功を収め、タスク固有のデータセット上で事前学習されたモデルをチューニングする微調整は、下流タスクにこれらのモデルを活用するための標準的なプラクティスである。
最近の研究でアダプタチューニングが開発されているが、これらのアプローチには比較的高いリソース使用が必要である。
そこで本研究では,アダプタチューニングにおける各アダプタが,タスク性能やリソース使用量に影響を及ぼさないことを示す。
そこで本研究では,早期訓練段階において適応に寄与しない,重要度が低いアダプタを徐々に凍結するSAFEを提案する。
実験では, メモリ使用量, 計算量, トレーニング時間をそれぞれ42.85\%, 34.59\%, 11.82\%削減し, ベースラインに比べて同等あるいは優れた性能を実現した。
また,SAFEは正規化効果を誘導し,損失景観を平滑にすることを示した。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Domain Generalization Using Large Pretrained Models with
Mixture-of-Adapters [35.834509022013435]
ドメイン一般化(DG)アルゴリズムは、異なる分布上で訓練されたモデルの性能を維持することを目的としている。
我々は、Mix of-Adapters (MoA) と呼ばれる、Mix of-Exertベースのアダプタ微調整法を提案する。
論文 参考訳(メタデータ) (2023-10-17T07:01:24Z) - TAIL: Task-specific Adapters for Imitation Learning with Large
Pretrained Models [32.83440439290383]
TAIL(Task-specific Adapters for Learning)は,新しい制御タスクに効率的に適応するためのフレームワークである。
言語領域におけるパラメータ効率の良い微調整の最近の進歩に触発されて,効率的な微調整技術を探究する。
大規模言語条件の操作タスクにおける実験から,LoRAを用いたTAILは適応後最高の性能が得られることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T17:49:50Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - CHAPTER: Exploiting Convolutional Neural Network Adapters for
Self-supervised Speech Models [62.60723685118747]
自己教師付き学習(SSL)は、ラベルのないデータから表現を学習するための強力な技術である。
特徴抽出器にCNNアダプタを適用し,SSL音声モデルに特化して設計された効率的なチューニング手法を提案する。
特徴抽出器にCNNを追加することで、感情や話者のタスクへの適応が促進されることを実証的に見出した。
論文 参考訳(メタデータ) (2022-12-01T08:50:12Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。