論文の概要: Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.06466v2
- Date: Wed, 19 Apr 2023 15:48:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-20 17:50:22.644671
- Title: Prompt Generation Networks for Input-based Adaptation of Frozen Vision
Transformers
- Title(参考訳): 凍結視覚トランスの入力ベース適応のためのプロンプト生成ネットワーク
- Authors: Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano
- Abstract要約: Prompt Generation Network (PGN)は、トークンのエンドツーエンドの学習ライブラリからサンプリングすることで、高性能で入力に依存したプロンプトを生成する。
PGNを遅延空間で効率的に訓練できる"prompt inversion"トリックは、推論のための厳密な入力専用プロンプトとしてデプロイされる。
12/12データセットでは従来よりも大きなマージンで,さらに5/12ではフルファインタニングでもパフォーマンスが向上し,パラメータの100倍も削減されている。
- 参考スコア(独自算出の注目度): 9.080472817672264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the introduction of the transformer architecture in computer vision,
increasing model scale has been demonstrated as a clear path to achieving
performance and robustness gains. However, with model parameter counts reaching
the billions, classical finetuning approaches are becoming increasingly
limiting and even unfeasible when models become hosted as inference APIs, as in
NLP. To this end, visual prompt learning, whereby a model is adapted by
learning additional inputs, has emerged as a potential solution for adapting
frozen and cloud-hosted models: During inference, this neither requires access
to the internals of models' forward pass function, nor requires any
post-processing. In this work, we propose the Prompt Generation Network (PGN)
that generates high performing, input-dependent prompts by sampling from an
end-to-end learned library of tokens. We further introduce the "prompt
inversion" trick, with which PGNs can be efficiently trained in a latent space
but deployed as strictly input-only prompts for inference. We show the PGN is
effective in adapting pre-trained models to various new datasets: It surpasses
previous methods by a large margin on 12/12 datasets and even outperforms
full-finetuning on 5/12, while requiring 100x less parameters.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーアーキテクチャの導入により、モデルスケールの増大は、パフォーマンスとロバスト性向上を達成するための明確な経路として実証されている。
しかし、モデルパラメータが数十億に達すると、NLPのようにモデルが推論APIとしてホストされるようになると、古典的な微調整アプローチはますます制限され、実現不可能になっている。
この目的のために、モデルが追加入力を学習することによって適応される視覚的プロンプト学習は、凍結およびクラウドホストされたモデルに適応するための潜在的なソリューションとして登場した。
本稿では,トークンのエンドツーエンド学習ライブラリから,高パフォーマンスかつ入力依存的なプロンプトを生成するPrompt Generation Network(PGN)を提案する。
さらに、PGNを遅延空間で効率的に訓練できるが、推論のための厳密な入力専用プロンプトとして展開する"prompt inversion"手法を導入する。
pgnは、事前学習されたモデルを様々な新しいデータセットに適応させるのに効果的であることを示す: 12/12のデータセットで従来の方法を大きく超え、さらに5/12のフル微調整よりも100倍のパラメータを必要とする。
関連論文リスト
- Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - Neural Prompt Search [38.68910532066619]
本稿では,大規模視覚モデルのための新しいアプローチであるNeural prOmpt seArcHを提案する。
NOAHは、大きな視覚モデルに対して、ニューラルネットワーク探索アルゴリズムを通じてプロンプトモジュールの最適設計を学ぶ。
論文 参考訳(メタデータ) (2022-06-09T17:59:58Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。