論文の概要: Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.06466v2
- Date: Wed, 19 Apr 2023 15:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 17:50:22.644671
- Title: Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers
- Title(参考訳): 凍結視覚トランスの入力ベース適応のためのプロンプト生成ネットワーク
- Authors: Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano
- Abstract要約: Prompt Generation Network (PGN)は、トークンのエンドツーエンドの学習ライブラリからサンプリングすることで、高性能で入力に依存したプロンプトを生成する。
PGNを遅延空間で効率的に訓練できる"prompt inversion"トリックは、推論のための厳密な入力専用プロンプトとしてデプロイされる。
12/12データセットでは従来よりも大きなマージンで,さらに5/12ではフルファインタニングでもパフォーマンスが向上し,パラメータの100倍も削減されている。
- 参考スコア(独自算出の注目度): 9.080472817672264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the introduction of the transformer architecture in computer vision,
increasing model scale has been demonstrated as a clear path to achieving
performance and robustness gains. However, with model parameter counts reaching
the billions, classical finetuning approaches are becoming increasingly
limiting and even unfeasible when models become hosted as inference APIs, as in
NLP. To this end, visual prompt learning, whereby a model is adapted by
learning additional inputs, has emerged as a potential solution for adapting
frozen and cloud-hosted models: During inference, this neither requires access
to the internals of models' forward pass function, nor requires any
post-processing. In this work, we propose the Prompt Generation Network (PGN)
that generates high performing, input-dependent prompts by sampling from an
end-to-end learned library of tokens. We further introduce the "prompt
inversion" trick, with which PGNs can be efficiently trained in a latent space
but deployed as strictly input-only prompts for inference. We show the PGN is
effective in adapting pre-trained models to various new datasets: It surpasses
previous methods by a large margin on 12/12 datasets and even outperforms
full-finetuning on 5/12, while requiring 100x less parameters.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーアーキテクチャの導入により、モデルスケールの増大は、パフォーマンスとロバスト性向上を達成するための明確な経路として実証されている。
しかし、モデルパラメータが数十億に達すると、NLPのようにモデルが推論APIとしてホストされるようになると、古典的な微調整アプローチはますます制限され、実現不可能になっている。
この目的のために、モデルが追加入力を学習することによって適応される視覚的プロンプト学習は、凍結およびクラウドホストされたモデルに適応するための潜在的なソリューションとして登場した。
本稿では,トークンのエンドツーエンド学習ライブラリから,高パフォーマンスかつ入力依存的なプロンプトを生成するPrompt Generation Network(PGN)を提案する。
さらに、PGNを遅延空間で効率的に訓練できるが、推論のための厳密な入力専用プロンプトとして展開する"prompt inversion"手法を導入する。
pgnは、事前学習されたモデルを様々な新しいデータセットに適応させるのに効果的であることを示す: 12/12のデータセットで従来の方法を大きく超え、さらに5/12のフル微調整よりも100倍のパラメータを必要とする。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - Feature Distribution Shift Mitigation with Contrastive Pretraining for Intrusion Detection [7.986219763892841]
モデル事前学習により,特徴分布シフトに対するロバスト性は8%以上向上することを示した。
また,適切な数値埋め込み戦略により,事前学習モデルの性能が向上することを示す。
提案したSwapConモデルは、eXtreme Gradient Boosting(XGBoost)およびK-Nearest Neighbor(KNN)ベースのモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-23T10:15:10Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。