論文の概要: DTL: Disentangled Transfer Learning for Visual Recognition
- arxiv url: http://arxiv.org/abs/2312.07856v2
- Date: Fri, 2 Feb 2024 08:25:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:04:41.671835
- Title: DTL: Disentangled Transfer Learning for Visual Recognition
- Title(参考訳): DTL:視覚認識のための遠方移動学習
- Authors: Minghao Fu, Ke Zhu, Jianxin Wu
- Abstract要約: 軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
- 参考スコア(独自算出の注目度): 21.549234013998255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When pre-trained models become rapidly larger, the cost of fine-tuning on
downstream tasks steadily increases, too. To economically fine-tune these
models, parameter-efficient transfer learning (PETL) is proposed, which only
tunes a tiny subset of trainable parameters to efficiently learn quality
representations. However, current PETL methods are facing the dilemma that
during training the GPU memory footprint is not effectively reduced as
trainable parameters. PETL will likely fail, too, if the full fine-tuning
encounters the out-of-GPU-memory issue. This phenomenon happens because
trainable parameters from these methods are generally entangled with the
backbone, such that a lot of intermediate states have to be stored in GPU
memory for gradient propagation. To alleviate this problem, we introduce
Disentangled Transfer Learning (DTL), which disentangles the trainable
parameters from the backbone using a lightweight Compact Side Network (CSN). By
progressively extracting task-specific information with a few low-rank linear
mappings and appropriately adding the information back to the backbone, CSN
effectively realizes knowledge transfer in various downstream tasks. We
conducted extensive experiments to validate the effectiveness of our method.
The proposed method not only reduces a large amount of GPU memory usage and
trainable parameters, but also outperforms existing PETL methods by a
significant margin in accuracy, achieving new state-of-the-art on several
standard benchmarks. The code is available at https://github.com/heekhero/DTL.
- Abstract(参考訳): 事前トレーニングされたモデルが急速に大きくなると、下流タスクの微調整コストも着実に増加する。
これらのモデルを経済的に微調整するために、パラメータ効率変換学習(PETL)を提案し、トレーニング可能なパラメータの小さなサブセットをチューニングするだけで品質表現を効率的に学習する。
しかし、現在のpetlメソッドは、トレーニング中にgpuメモリフットプリントがトレーニング可能なパラメータとして効果的に削減されないというジレンマに直面している。
PETLも、GPUのメモリ外問題に遭遇すれば、失敗するだろう。
この現象は、これらのメソッドからのトレーニング可能なパラメータが一般的にバックボーンと絡み合っているため、多くの中間状態が勾配伝播のためにGPUメモリに格納される必要があるためである。
この問題を軽減するために、軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
タスク固有の情報を少数の低ランク線形マッピングで段階的に抽出し、情報をバックボーンに適切に付加することにより、CSNは様々な下流タスクにおける知識伝達を効果的に実現する。
本手法の有効性を検証するために広範な実験を行った。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL手法よりも高い精度で性能を向上し,いくつかの標準ベンチマークで新たな最先端性を実現する。
コードはhttps://github.com/heekhero/dtlで入手できる。
関連論文リスト
- FPT+: A Parameter and Memory Efficient Transfer Learning Method for High-resolution Medical Image Classification [1.5791081894226173]
FPT+(Fun-fine Prompt Tuning plus)は、高解像度の医用画像分類のために設計されたPETL法である。
FPT+は、軽量なサイドネットワークをトレーニングし、大規模な事前学習モデルから事前学習された知識にアクセスすることによって、転送学習を行う。
実験の結果、FPT+は他のPETL法よりも優れており、学習可能なパラメータの1.03%とViT-Bモデル全体を微調整するために必要なメモリの3.18%しか使用していない。
論文 参考訳(メタデータ) (2024-08-05T12:33:07Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Low-rank Attention Side-Tuning for Parameter-Efficient Fine-Tuning [19.17362588650503]
低ランク・アテンション・サイドチューニング (LAST) は低ランク・アテンション・モジュールのみで構成されるサイドネットワークを訓練する。
LASTは、複数の最適化目標に対して高い並列性を示し、下流タスク適応において非常に効率的である。
論文 参考訳(メタデータ) (2024-02-06T14:03:15Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。