論文の概要: Time-, Memory- and Parameter-Efficient Visual Adaptation
- arxiv url: http://arxiv.org/abs/2402.02887v1
- Date: Mon, 5 Feb 2024 10:55:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 16:47:13.432013
- Title: Time-, Memory- and Parameter-Efficient Visual Adaptation
- Title(参考訳): 時間・メモリ・パラメータ効率の良い視覚適応
- Authors: Otniel-Bogdan Mercea, Alexey Gritsenko, Cordelia Schmid, Anurag Arnab
- Abstract要約: バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
- 参考スコア(独自算出の注目度): 75.28557015773217
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As foundation models become more popular, there is a growing need to
efficiently finetune them for downstream tasks. Although numerous adaptation
methods have been proposed, they are designed to be efficient only in terms of
how many parameters are trained. They, however, typically still require
backpropagating gradients throughout the model, meaning that their
training-time and -memory cost does not reduce as significantly. We propose an
adaptation method which does not backpropagate gradients through the backbone.
We achieve this by designing a lightweight network in parallel that operates on
features from the frozen, pretrained backbone. As a result, our method is
efficient not only in terms of parameters, but also in training-time and memory
usage. Our approach achieves state-of-the-art accuracy-parameter trade-offs on
the popular VTAB benchmark, and we further show how we outperform prior works
with respect to training-time and -memory usage too. We further demonstrate the
training efficiency and scalability of our method by adapting a vision
transformer backbone of 4 billion parameters for the computationally demanding
task of video classification, without any intricate model parallelism. Here, we
outperform a prior adaptor-based method which could only scale to a 1 billion
parameter backbone, or fully-finetuning a smaller backbone, with the same GPU
and less training time.
- Abstract(参考訳): 基盤モデルがより普及するにつれ、下流タスクに効率的に微調整する必要性が高まっている。
多数の適応法が提案されているが, パラメータの学習量の観点からのみ効率的であるように設計されている。
しかしながら、通常はモデル全体の勾配をバックプロパゲーションする必要があるため、トレーニング時間とメモリコストはそれほど大きく削減されない。
本稿では,バックボーンを通じて勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
その結果,本手法はパラメータだけでなく,トレーニング時間やメモリ使用量にも有効であることがわかった。
提案手法は,一般的なVTABベンチマークにおける最先端の精度パラメータトレードオフを実現し,トレーニング時間やメモリ使用量に関して,先行作業よりも優れていることを示す。
さらに,映像分類の計算要求課題に対して40億パラメータの視覚トランスフォーマーバックボーンを適用し,複雑なモデル並列処理を必要とせず,学習効率と拡張性を示す。
ここでは、10億のパラメータバックボーンにしかスケールできない、あるいは、より小さなバックボーンを完全に微調整できる事前のアダプタベースの手法を、同じGPUで実現し、トレーニング時間を短縮する。
関連論文リスト
- Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - Winner-Take-All Column Row Sampling for Memory Efficient Adaptation of Language Model [89.8764435351222]
分散を低減した行列生成のために, WTA-CRS と呼ばれる新しい非バイアス推定系を提案する。
我々の研究は、チューニング変換器の文脈において、提案した推定器が既存のものよりも低い分散を示すという理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-05-24T15:52:08Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Online Convolutional Re-parameterization [51.97831675242173]
2段階のパイプラインであるオンライン畳み込み再パラメータ化(OREPA)は、複雑なトレーニング時間ブロックを単一の畳み込みに絞ることで、巨大なトレーニングオーバーヘッドを低減することを目的としている。
最先端のre-paramモデルと比較して、OREPAはトレーニング時間のメモリコストを約70%削減し、トレーニング速度を約2倍向上させることができる。
また、オブジェクト検出とセマンティックセグメンテーションの実験を行い、下流タスクに一貫した改善を示す。
論文 参考訳(メタデータ) (2022-04-02T09:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。