論文の概要: SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning
- arxiv url: http://arxiv.org/abs/2407.07523v1
- Date: Wed, 10 Jul 2024 10:22:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 17:01:49.119938
- Title: SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning
- Title(参考訳): SHERL:資源制限転送学習のための高精度・効率的なメモリの合成
- Authors: Haiwen Diao, Bo Wan, Xu Jia, Yunzhi Zhuge, Ying Zhang, Huchuan Lu, Long Chen,
- Abstract要約: 本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
- 参考スコア(独自算出の注目度): 63.93193829913252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter-efficient transfer learning (PETL) has emerged as a flourishing research field for adapting large pre-trained models to downstream tasks, greatly reducing trainable parameters while grappling with memory challenges during fine-tuning. To address it, memory-efficient series (METL) avoid backpropagating gradients through the large backbone. However, they compromise by exclusively relying on frozen intermediate outputs and limiting the exhaustive exploration of prior knowledge from pre-trained models. Moreover, the dependency and redundancy between cross-layer features are frequently overlooked, thereby submerging more discriminative representations and causing an inherent performance gap (vs. conventional PETL methods). Hence, we propose an innovative METL strategy called SHERL for resource-limited scenarios to decouple the entire adaptation into two successive and complementary processes. In the early route, intermediate outputs are consolidated via an anti-redundancy operation, enhancing their compatibility for subsequent interactions; thereby in the late route, utilizing minimal late pre-trained layers could alleviate the peak demand on memory overhead and regulate these fairly flexible features into more adaptive and powerful representations for new domains. Extensive ablations on vision-and-language and language-only tasks show that SHERL combines the strengths of both parameter and memory-efficient techniques, performing on-par or better across diverse architectures with lower memory during fine-tuning. Our code is publicly available at: https://github.com/Paranioar/SHERL.
- Abstract(参考訳): パラメータ効率変換学習(PETL)は、大規模な事前学習されたモデルを下流タスクに適用し、微調整中にメモリの問題に対処しながらトレーニング可能なパラメータを大幅に削減する研究分野として栄えている。
これを解決するために、メモリ効率級数(METL)は大きなバックボーンを通る勾配のバックプロパゲートを避ける。
しかし、彼らは凍結した中間出力にのみ依存し、事前訓練されたモデルからの事前知識の徹底的な探索を制限することで妥協した。
さらに、層間特徴間の依存性と冗長性はしばしば見過ごされるため、より差別的な表現を潜入させ、固有の性能ギャップを引き起こす(従来のPETL法)。
そこで本研究では,リソース制限シナリオを2つの逐次的および相補的プロセスに分離するために,SHERLと呼ばれる革新的なMETL戦略を提案する。
初期のルートでは、中間出力は反冗長操作によって統合され、その後の相互作用に対する互換性が向上し、後続のルートでは、最小の遅延事前学習層を利用することで、メモリオーバーヘッドのピーク需要を軽減し、これらの柔軟な特徴をより適応的で強力な新しいドメインの表現に制御することができる。
ビジョン・アンド・ランゲージと言語のみのタスクに対する大規模な改善は、SHERLがパラメータとメモリ効率の双方の長所を結合し、微調整中に低メモリで様々なアーキテクチャでオンパー以上の性能を発揮することを示している。
私たちのコードは、https://github.com/Paranioar/SHERL.comで公開されています。
関連論文リスト
- LiNeS: Post-training Layer Scaling Prevents Forgetting and Enhances Model Merging [80.17238673443127]
LiNeSは、微調整タスク性能を向上しつつ、事前訓練された一般化を維持するために設計されたポストトレーニング編集技術である。
LiNeSは、視覚と自然言語処理のさまざまなベンチマークにおいて、シングルタスクとマルチタスクの両方で大幅に改善されている。
論文 参考訳(メタデータ) (2024-10-22T16:26:05Z) - Replacement Learning: Training Vision Tasks with Fewer Learnable Parameters [4.2114456503277315]
置換学習は、冷凍層の全パラメータを2つの学習可能なパラメータで置き換える。
CIFAR-10, STL-10, SVHN, ImageNetの4つのベンチマークデータセットを対象に実験を行った。
提案手法は,エンドツーエンドトレーニングの性能を完全に超えながら,パラメータ数,トレーニング時間,メモリ使用量を削減する。
論文 参考訳(メタデータ) (2024-10-02T05:03:54Z) - Pareto Low-Rank Adapters: Efficient Multi-Task Learning with Preferences [49.14535254003683]
PaLoRAは、タスク固有の低ランクアダプタでオリジナルのモデルを拡張する、新しいパラメータ効率の手法である。
実験の結果,PaLoRAは様々なデータセットでMTLとPFLのベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2024-07-10T21:25:51Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - DTL: Disentangled Transfer Learning for Visual Recognition [21.549234013998255]
軽量なコンパクトサイドネットワーク(CSN)を用いて、トレーニング可能なパラメータをバックボーンから切り離すDTL(Disentangled Transfer Learning)を導入する。
提案手法は,大量のGPUメモリ使用量とトレーニング可能なパラメータを削減できるだけでなく,既存のPETL法よりも高い精度で性能を向上する。
論文 参考訳(メタデータ) (2023-12-13T02:51:26Z) - UniPT: Universal Parallel Tuning for Transfer Learning with Efficient
Parameter and Memory [69.33445217944029]
PETLは、トレーニング済みモデルを下流ドメインに適応するための効果的な戦略である。
最近のPETLは、より価値の高いメモリ効率特性に焦点を当てている。
メモリ効率の良い新しいPETL戦略Universal Parallel Tuning (UniPT)を提案する。
論文 参考訳(メタデータ) (2023-08-28T05:38:43Z) - LST: Ladder Side-Tuning for Parameter and Memory Efficient Transfer
Learning [82.93130407930762]
大規模な事前訓練されたモデルのパラメータセット全体を更新するのはコストがかかる。
PETL技術は、トレーニング済みのバックボーンネットワーク内のパラメータの小さなサブセットを更新して、新しいタスクを実行できる。
本稿では,学習用メモリの必要量を大幅に削減するPETL技術であるLadder Side-Tuning (LST)を提案する。
論文 参考訳(メタデータ) (2022-06-13T23:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。