論文の概要: Parameter-efficient is not sufficient: Exploring Parameter, Memory, and
Time Efficient Adapter Tuning for Dense Predictions
- arxiv url: http://arxiv.org/abs/2306.09729v2
- Date: Mon, 27 Nov 2023 12:58:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 15:46:28.380596
- Title: Parameter-efficient is not sufficient: Exploring Parameter, Memory, and
Time Efficient Adapter Tuning for Dense Predictions
- Title(参考訳): パラメータ効率は不十分:密集予測のためのパラメータ、メモリ、時間効率の良いアダプタチューニング
- Authors: Dongshuo Yin and Xueting Han and Bin Li and Hao Feng and Jing Bai
- Abstract要約: パラメータ効率変換学習 (PETL) 法は, 訓練可能なパラメータの少ない下流タスクに適応する上で, 有望な性能を示した。
コンピュータビジョン(CV)におけるPETL法は、計算コストが高く、訓練中に大量のメモリと時間コストを必要とする。
MathrmE3VA$は62.2%のトレーニングメモリと26.2%のトレーニング時間を節約できる。
- 参考スコア(独自算出の注目度): 9.068569788978854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training & fine-tuning is a prevalent paradigm in computer vision (CV).
Recently, parameter-efficient transfer learning (PETL) methods have shown
promising performance in adapting to downstream tasks with only a few trainable
parameters. Despite their success, the existing PETL methods in CV can be
computationally expensive and require large amounts of memory and time cost
during training, which limits low-resource users from conducting research and
applications on large models. In this work, we propose Parameter, Memory, and
Time Efficient Visual Adapter ($\mathrm{E^3VA}$) tuning to address this issue.
We provide a gradient backpropagation highway for low-rank adapters which
eliminates the need for expensive backpropagation through the frozen
pre-trained model, resulting in substantial savings of training memory and
training time. Furthermore, we optimise the $\mathrm{E^3VA}$ structure for CV
tasks to promote model performance. Extensive experiments on COCO, ADE20K, and
Pascal VOC benchmarks show that $\mathrm{E^3VA}$ can save up to 62.2% training
memory and 26.2% training time on average, while achieving comparable
performance to full fine-tuning and better performance than most PETL methods.
Note that we can even train the Swin-Large-based Cascade Mask RCNN on GTX
1080Ti GPUs with less than 1.5% trainable parameters.
- Abstract(参考訳): 事前トレーニングと微調整はコンピュータビジョン(CV)において一般的なパラダイムである。
近年,パラメータ効率変換学習 (PETL) 法は,数個の訓練可能なパラメータを持つ下流タスクに適応する上で有望な性能を示した。
その成功にもかかわらず、CVの既存のPETL手法は計算コストがかかり、トレーニング中に大量のメモリと時間コストが必要になるため、低リソースのユーザは大規模なモデルの研究や応用を行うことができない。
本稿では,パラメータ,メモリ,時間効率のよいビジュアルアダプタ(\mathrm{E^3VA}$)チューニングを提案し,この問題に対処する。
冷凍プレトレーニングモデルによる高価なバックプロパゲーションの必要性を排除し,トレーニングメモリとトレーニング時間を大幅に節約できる低ランクアダプタ用勾配バックプロパゲーションハイウェイを提供する。
さらに,CVタスクのモデル性能向上のために,$\mathrm{E^3VA}$構造を最適化する。
COCO、ADE20K、Pascal VOCベンチマークの大規模な実験によると、$\mathrm{E^3VA}$は62.2%のトレーニングメモリと26.2%のトレーニング時間を平均で節約でき、PETLメソッドよりも完全な微調整と優れたパフォーマンスを達成する。
トレーニング可能なパラメータが1.5%未満のGTX 1080Ti GPU上で、Swin-LargeベースのCascade Mask RCNNをトレーニングすることも可能です。
関連論文リスト
- CoMERA: Computing- and Memory-Efficient Training via Rank-Adaptive Tensor Optimization [10.319009303849109]
ディープラーニングレコメンデーションシステムや基礎言語(あるいはマルチモーダル)モデルといった大規模なAIモデルのトレーニングには、膨大なGPUと計算時間を要する。
CoMERAは、多目的最適化の定式化により、エンドツーエンドのテンソル圧縮トレーニングを実現する。
CoMERAは1回のバッチトレーニングでテストされた6エンコーダトランスで、GaLoreよりも2倍高速で、9倍高速である。
論文 参考訳(メタデータ) (2024-05-23T09:52:15Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - Towards Efficient Visual Adaption via Structural Re-parameterization [76.57083043547296]
本稿では,RepAdapterと呼ばれる巨大ビジョンモデルに対して,パラメータ効率と計算親和性を考慮したアダプタを提案する。
RepAdapterは、VTAB-1k上で25%のトレーニング時間、20%のGPUメモリ、94.6%のストレージコストを節約できる。
論文 参考訳(メタデータ) (2023-02-16T06:14:15Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。