論文の概要: Towards Optimal Adapter Placement for Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2410.15858v1
- Date: Mon, 21 Oct 2024 10:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:23.655628
- Title: Towards Optimal Adapter Placement for Efficient Transfer Learning
- Title(参考訳): 効率的な伝達学習のための最適適応配置に向けて
- Authors: Aleksandra I. Nowak, Otniel-Bogdan Mercea, Anurag Arnab, Jonas Pfeiffer, Yann Dauphin, Utku Evci,
- Abstract要約: PETLは、トレーニング済みモデルを新しい下流タスクに適用し、微調整されたパラメータの数を最小化することを目的としている。
PETLの一般的なアプローチであるアダプタは、低ランクのプロジェクションを組み込むことで、既存のネットワークにさらなる容量を注入する。
本稿では,アダプタの配置と性能の関係について検討する。
- 参考スコア(独自算出の注目度): 73.1149084352343
- License:
- Abstract: Parameter-efficient transfer learning (PETL) aims to adapt pre-trained models to new downstream tasks while minimizing the number of fine-tuned parameters. Adapters, a popular approach in PETL, inject additional capacity into existing networks by incorporating low-rank projections, achieving performance comparable to full fine-tuning with significantly fewer parameters. This paper investigates the relationship between the placement of an adapter and its performance. We observe that adapter location within a network significantly impacts its effectiveness, and that the optimal placement is task-dependent. To exploit this observation, we introduce an extended search space of adapter connections, including long-range and recurrent adapters. We demonstrate that even randomly selected adapter placements from this expanded space yield improved results, and that high-performing placements often correlate with high gradient rank. Our findings reveal that a small number of strategically placed adapters can match or exceed the performance of the common baseline of adding adapters in every block, opening a new avenue for research into optimal adapter placement strategies.
- Abstract(参考訳): パラメータ効率の伝達学習(PETL)は、訓練済みのモデルを新しい下流タスクに適用し、微調整されたパラメータの数を最小化することを目的としている。
PETLで一般的なアプローチであるAdaptersは、低ランクのプロジェクションを組み込むことで、既存のネットワークにキャパシティを注入し、パラメータが大幅に少ないフル微調整に匹敵するパフォーマンスを達成する。
本稿では,アダプタの配置と性能の関係について検討する。
ネットワーク内のアダプタ位置が有効性に大きく影響し,最適配置がタスク依存であることを確認する。
この観測を生かして、長距離および再帰的なアダプタを含むアダプタ接続の拡張検索空間を導入する。
この拡張された空間収率からランダムに選択されたアダプタ配置でも結果が向上し、高い性能の配置が高階位と相関することが実証された。
以上の結果から, 少数の戦略的に配置されたアダプタは, 各ブロックにアダプタを追加することで, 共通ベースラインの性能に適合するか, 上回っていることが明らかとなり, 最適なアダプタ配置戦略の研究への新たな道が開かれた。
関連論文リスト
- Pear: Pruning and Sharing Adapters in Visual Parameter-Efficient Fine-Tuning [6.068296063531189]
アダプタは冗長性を示し、不要なストレージオーバーヘッドと性能の低下につながる。
本研究では,事前学習した視覚基盤モデルの高精度な微調整を行うための,新しいアダプタ・プルーニングフレームワークPrune and Share (Pear)を提案する。
論文 参考訳(メタデータ) (2024-09-29T15:18:38Z) - Parameter-Efficient Fine-Tuning With Adapters [5.948206235442328]
本研究では,UniPELTフレームワークをベースとした新しい適応手法を提案する。
提案手法では, ベースモデルパラメータの最小限の再学習を行うことなく, 事前学習したモデルを新しいタスクに効率的に転送できるアダプタを用いる。
論文 参考訳(メタデータ) (2024-05-09T01:40:38Z) - Efficient Adaptation of Large Vision Transformer via Adapter
Re-Composing [8.88477151877883]
高容量事前学習モデルはコンピュータビジョンにおける問題解決に革命をもたらした。
本稿では,効率的な事前学習モデル適応に対処する新しい適応型再コンパイル(ARC)戦略を提案する。
提案手法は適応パラメータの再利用可能性について考察し,パラメータ共有方式を提案する。
論文 参考訳(メタデータ) (2023-10-10T01:04:15Z) - MerA: Merging Pretrained Adapters For Few-Shot Learning [71.44422347502409]
モデル融合により,事前学習したアダプタを単一モデルに効率的に組み込むことができるtextbftextttMerging Pretrained Adapters (MerA)を提案する。
2つのPLMの実験では、MerAはシングルアダプタとAdapterFusionの両方と比較して大幅に改善されている。
論文 参考訳(メタデータ) (2023-08-30T12:10:17Z) - Tiny-Attention Adapter: Contexts Are More Important Than the Number of
Parameters [25.958600375299735]
Adapter-tuningは、トレーニング済みの言語モデルを、少数の新しいパラメータの追加とチューニングによって下流タスクに転送するパラダイムである。
本稿では, 極小アテンション, 極小アテンション・アテンション・アテンション・アテンション・アテンションをアダプタとして用いることの有効性について検討する。
私たちの小さなアテンションアダプタは、他のすべての位置にある隠された状態に直接条件付けられた各位置の隠された状態を変更することを学習します。
論文 参考訳(メタデータ) (2022-10-18T15:20:44Z) - SparseAdapter: An Easy Approach for Improving the Parameter-Efficiency
of Adapters [96.52807311742198]
我々は、ネットワークプルーニングのレンズを通して、アダプタのパラメータ効率を再検討する。
スパース比が最大80%に達すると、SparseAdapterは標準のAdapterよりも同等あるいは優れたパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-09T15:28:48Z) - Adaptable Adapters [74.65986170056945]
最先端のNLPモデルには1億から1兆のパラメータが含まれる。
適応アダプタは異なる層と異なる入力データに対して異なるアクティベーション関数を含む。
適応型アダプタは,標準アダプタアーキテクチャを用いてオンパー性能を実現する。
論文 参考訳(メタデータ) (2022-05-03T14:59:27Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdapterDrop: On the Efficiency of Adapters in Transformers [53.845909603631945]
大規模に事前訓練されたトランスフォーマーモデルは、微調整に計算コストがかかり、推論に時間がかかり、大きなストレージ要求がある。
最近のアプローチでは、より小さなモデルをトレーニングし、モデルサイズを動的に削減し、軽量アダプタをトレーニングすることで、これらの欠点に対処している。
論文 参考訳(メタデータ) (2020-10-22T17:49:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。