論文の概要: Prompt Generation Networks for Efficient Adaptation of Frozen Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.06466v1
- Date: Wed, 12 Oct 2022 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:04:41.797257
- Title: Prompt Generation Networks for Efficient Adaptation of Frozen Vision
Transformers
- Title(参考訳): 凍結型視覚変換器の適応性向上のためのプロンプト生成ネットワーク
- Authors: Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano
- Abstract要約: Prompt Generation Network(PGN)は、学習したトークンのライブラリからサンプリングすることで、入力依存のプロンプトを生成する。
PGNは、事前学習されたモデルを様々な新しいデータセットに適応させるのに有効であることを示す。
PGNはフリーズモデルの下流適応のための,実用的でスケーラブルなアプローチである。
- 参考スコア(独自算出の注目度): 9.080472817672264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained models, especially those trained from vision-language
data have demonstrated the tremendous value that can be gained from both larger
training datasets and models. Thus, in order to benefit from these
developments, there is renewed interest in transfer learning and adapting
models from large-scale general pretraining to particular downstream tasks.
However, the continuously increasing size of the models means that even the
classic approach of finetuning is becoming infeasible for all but big
institutions. Prompt leaning has emerged as a flexible way to adapt models by
solely learning additional inputs to a model that is kept frozen, but so far
performances remained inferior to finetuning. To address this, we propose the
Prompt Generation Network (PGN) that generates input-dependent prompts by
sampling from a learned library of tokens. We show the PGN is effective in
adapting pretrained models to various new datasets. It surpasses previous
prompt-learning methods by a large margin and even fullfinetuning on 5 out of
12 datasets while requiring 100x less parameters. PGN can even be used for
training and inferring on multiple datasets simultaneously and learns to
allocate tokens between domains. Given these findings, we conclude that PGN is
a viable and scalable approach for downstream adaptation of frozen models. Code
is available at https://github.com/jochemloedeman/PGN.
- Abstract(参考訳): 大規模な事前トレーニングモデル、特に視覚言語データからトレーニングされたモデルは、より大きなトレーニングデータセットとモデルの両方から得られる膨大な価値を示しています。
したがって、これらの発展の恩恵を受けるために、大規模な一般事前学習から特定の下流タスクへの移行学習と適応モデルへの新たな関心が高まっている。
しかし、モデルのサイズが継続的に大きくなることは、ファインチューニングの古典的アプローチでさえ、大きな機関を除いては不可能になりつつあることを意味している。
素早い傾きは、凍結されたモデルへの追加入力のみを学習することによって、モデルに適応するための柔軟な方法として現れてきたが、これまでは微調整よりもパフォーマンスが劣っていた。
そこで本稿では,トークンの学習ライブラリから抽出した入力依存的なプロンプトを生成するPrompt Generation Network (PGN)を提案する。
PGNは様々な新しいデータセットに事前学習モデルを適用するのに有効であることを示す。
従来のプロンプト学習手法を大きなマージンで上回り、12のデータセットのうち5つをフルフィニングし、パラメータを100倍少なくする。
pgnは複数のデータセットを同時にトレーニングし推論するためにも使え、ドメイン間でトークンを割り当てることを学ぶことができる。
これらの結果から, PGNは凍結モデルの下流適応のための, 実用的でスケーラブルなアプローチであると結論付けた。
コードはhttps://github.com/jochemloedeman/pgnで入手できる。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - Feature Distribution Shift Mitigation with Contrastive Pretraining for Intrusion Detection [7.986219763892841]
モデル事前学習により,特徴分布シフトに対するロバスト性は8%以上向上することを示した。
また,適切な数値埋め込み戦略により,事前学習モデルの性能が向上することを示す。
提案したSwapConモデルは、eXtreme Gradient Boosting(XGBoost)およびK-Nearest Neighbor(KNN)ベースのモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-23T10:15:10Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。