論文の概要: Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning
- arxiv url: http://arxiv.org/abs/2402.04009v1
- Date: Tue, 6 Feb 2024 14:03:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 14:43:03.390302
- Title: Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning
- Title(参考訳): パラメータ効率の良いファインチューニングのための低ランクアテンションサイドチューニング
- Authors: Ningyuan Tang, Minghao Fu, Ke Zhu, Jianxin Wu
- Abstract要約: 低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
- 参考スコア(独自算出の注目度): 19.17362588650503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In finetuning a large pretrained model to downstream tasks,
parameter-efficient fine-tuning (PEFT) methods can effectively finetune
pretrained models with few trainable parameters, but suffer from high GPU
memory consumption and slow training speed. Because learnable parameters from
these methods are entangled with the pretrained model, gradients related to the
frozen pretrained model's parameters have to be computed and stored during
finetuning. We propose Low-rank Attention Side-Tuning (LAST), which
disentangles the trainable module from the pretrained model by freezing not
only parameters but also outputs of the pretrained network. LAST trains a
side-network composed of only low-rank self-attention modules. By viewing the
pretrained model as a frozen feature extractor, the side-network takes
intermediate output from the pretrained model and focus on learning
task-specific knowledge. We also show that LAST can be highly parallel across
multiple optimization objectives, making it very efficient in downstream task
adaptation, for example, in finding optimal hyperparameters. LAST outperforms
previous state-of-the-art methods on VTAB-1K and other visual adaptation tasks
with roughly only 30\% of GPU memory footprint and 60\% of training time
compared to existing PEFT methods, but achieves significantly higher accuracy.
- Abstract(参考訳): 大規模な事前訓練されたモデルを下流タスクに微調整する場合、パラメータ効率の良い微調整(PEFT)手法は、トレーニング可能なパラメータが少ないが、高いGPUメモリ消費と遅いトレーニング速度に悩まされる。
これらの方法から学習可能なパラメータは事前学習されたモデルと絡み合っているため、凍結した事前学習モデルのパラメータに関連する勾配を微調整中に計算し保存する必要がある。
本稿では,トレーニング対象モジュールを事前学習モデルから切り離し,パラメータだけでなく事前学習ネットワークの出力も凍結する低ランク注意サイドチューニング(LAST)を提案する。
LASTは低ランクのセルフアテンションモジュールのみで構成されるサイドネットワークを訓練する。
事前学習されたモデルを凍結した特徴抽出器として見ることにより、サイドネットワークは事前学習されたモデルから中間出力を受け取り、タスク固有の知識の学習に集中する。
また、LASTは複数の最適化目標に対して高い並列性を示し、例えば最適なハイパーパラメータの探索において、下流タスク適応において非常に効率的であることを示す。
LASTは、VTAB-1Kや他の視覚適応タスクにおいて、既存のPEFT法と比較して、約30倍のGPUメモリフットプリントと60倍のトレーニング時間で、従来の最先端の手法よりも優れています。
関連論文リスト
- SaRA: High-Efficient Diffusion Model Fine-tuning with Progressive Sparse Low-Rank Adaptation [52.6922833948127]
本研究では,事前学習した拡散モデルにおけるパラメータの重要性について検討する。
本稿では,これらの非効率パラメータをフル活用するための新しいモデル微調整法を提案する。
本手法は,下流アプリケーションにおける事前学習モデルの生成能力を向上する。
論文 参考訳(メタデータ) (2024-09-10T16:44:47Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - PVP: Pre-trained Visual Parameter-Efficient Tuning [29.05396521860764]
大規模事前学習型トランスフォーマーは、様々なコンピュータビジョンタスクにおいて顕著な成功を収めている。
計算とストレージのコストが高いため、これらのモデルを下流タスクのために完全に微調整することは依然として非常に困難である。
事前学習型ビジュアルを提案する。
効率的な(PVP)チューニングフレームワーク - 最初にパラメータ効率のチューニングモジュールを事前トレーニングし、次に事前トレーニングされたモジュールを活用する。
論文 参考訳(メタデータ) (2023-04-26T15:55:29Z) - Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning [126.84770886628833]
既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-17T08:14:49Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。