論文の概要: Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning
- arxiv url: http://arxiv.org/abs/2210.08823v1
- Date: Mon, 17 Oct 2022 08:14:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:37:23.021059
- Title: Scaling & Shifting Your Features: A New Baseline for Efficient Model
Tuning
- Title(参考訳): 機能のスケーリングとシフト: 効率的なモデルチューニングのための新しいベースライン
- Authors: Dongze Lian, Daquan Zhou, Jiashi Feng, Xinchao Wang
- Abstract要約: 既存の微調整法は、事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、最後の線形層(線形プローブ)のみをチューニングする。
そこで本研究では,SSFと呼ばれるパラメータ効率の高いファインタニング手法を提案する。
- 参考スコア(独自算出の注目度): 126.84770886628833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing fine-tuning methods either tune all parameters of the pre-trained
model (full fine-tuning), which is not efficient, or only tune the last linear
layer (linear probing), which suffers a significant accuracy drop compared to
the full fine-tuning. In this paper, we propose a new parameter-efficient
fine-tuning method termed as SSF, representing that researchers only need to
Scale and Shift the deep Features extracted by a pre-trained model to catch up
with the performance of full fine-tuning. In this way, SSF also surprisingly
outperforms other parameter-efficient fine-tuning approaches even with a
smaller number of tunable parameters. Furthermore, different from some existing
parameter-efficient fine-tuning methods (e.g., Adapter or VPT) that introduce
the extra parameters and computational cost in the training and inference
stages, SSF only adds learnable parameters during the training stage, and these
additional parameters can be merged into the original pre-trained model weights
via re-parameterization in the inference phase. With the proposed SSF, our
model obtains 2.46% (90.72% vs. 88.54%) and 11.48% (73.10% vs. 65.57%)
performance improvement on FGVC and VTAB-1k in terms of Top-1 accuracy compared
to the full fine-tuning but only fine-tuning about 0.3M parameters. We also
conduct amounts of experiments in various model families (CNNs, Transformers,
and MLPs) and datasets. Results on 26 image classification datasets in total
and 3 robustness & out-of-distribution datasets show the effectiveness of SSF.
Code is available at https://github.com/dongzelian/SSF.
- Abstract(参考訳): 既存の微調整方法は、効率的ではない事前訓練されたモデルの全てのパラメータ(フル微調整)をチューニングするか、完全な微調整と比較してかなりの精度低下を被る最後の線形層(リニアプロビング)のみをチューニングするかのどちらかである。
本稿では,事前学習モデルによって抽出された深部特徴をスケール・シフトするだけで完全な微調整性能が得られることを示す,ssfと呼ばれる新しいパラメータ効率の良い微調整手法を提案する。
このようにして、SSFは他のパラメータ効率の良い微調整アプローチよりもはるかに優れており、微調整可能なパラメータは少ない。
さらに、トレーニングおよび推論段階で余分なパラメータと計算コストを導入する既存のパラメータ効率の高い微調整方法(AdapterやVPTなど)とは異なり、SSFはトレーニング段階でのみ学習可能なパラメータを追加し、これらの追加パラメータは推論フェーズにおける再パラメータ化によって元のトレーニング済みモデルの重みにマージすることができる。
提案するssfでは,fgvcおよびvtab-1kの性能改善率を,フルチューニングに比べて2.46% (90.72%対88.54%) と11.48% (73.10%対65.57%) とした。
また、さまざまなモデルファミリ(CNN、Transformer、MLP)とデータセットで大量の実験を行う。
その結果,26種類の画像分類データセットと3種類のロバスト性と分散性データセットがssfの有効性を示した。
コードはhttps://github.com/dongzelian/SSFで入手できる。
関連論文リスト
- Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - SVFT: Parameter-Efficient Fine-Tuning with Singular Vectors [80.6043267994434]
既存の手法と根本的に異なる単純なアプローチであるSVFTを提案する。
SVFTは特異ベクトルの外積のスパース結合として(W)を更新し、これらのスパース結合の係数(スケール)のみを訓練する。
言語とビジョンベンチマークの実験では、SVFTは完全な微調整性能の96%を回復し、パラメータの0.006から0.25%しかトレーニングしていない。
論文 参考訳(メタデータ) (2024-05-30T01:27:43Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Gradient-based Parameter Selection for Efficient Fine-Tuning [41.30092426231482]
グラディエントベース。
選択(GPS)はパラメータ効率の良い新しい微調整法である。
GPSはトレーニングと推論の段階で追加のパラメータや計算コストを導入していない。
GPSは3.33%(91.78% vs. 88.45%, FGVC)、9.61%(73.1% vs. 65.57%, VTAB)の精度向上を実現している。
論文 参考訳(メタデータ) (2023-12-15T18:59:05Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - On the Effectiveness of Parameter-Efficient Fine-Tuning [79.6302606855302]
現在、多くの研究が、パラメータのごく一部のみを微調整し、異なるタスク間で共有されるパラメータのほとんどを保持することを提案している。
これらの手法は, いずれも細粒度モデルであり, 新たな理論的解析を行う。
我々の理論に根ざした空間性の有効性にもかかわらず、調整可能なパラメータをどう選ぶかという問題はまだ未解決のままである。
論文 参考訳(メタデータ) (2022-11-28T17:41:48Z) - AlphaTuning: Quantization-Aware Parameter-Efficient Adaptation of
Large-Scale Pre-Trained Language Models [19.640997611256168]
我々は,事前学習された言語モデルの学習後の量子化と,対象タスクの量子化パラメータの一部のみを微調整するAlphaTuningを提案する。
具体的には、AlphaTuningはバイナリ符号化量子化を使用して、完全精度パラメータをバイナリパラメータとスケーリングファクタの別個のセットに分解する。
GPT-2 や OPT に適用されたAlphaTuning は,4ビット量子化条件下での圧縮率 >10x を実現し,トレーニング可能なパラメータ数 >1,000x の削減を図りながら,様々な下流タスクの完全な微調整と競合することを示した。
論文 参考訳(メタデータ) (2022-10-08T00:36:00Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。