論文の概要: Prompt Generation Networks for Efficient Adaptation of Frozen Vision
Transformers
- arxiv url: http://arxiv.org/abs/2210.06466v1
- Date: Wed, 12 Oct 2022 17:59:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 15:04:41.797257
- Title: Prompt Generation Networks for Efficient Adaptation of Frozen Vision
Transformers
- Title(参考訳): 凍結型視覚変換器の適応性向上のためのプロンプト生成ネットワーク
- Authors: Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano
- Abstract要約: Prompt Generation Network(PGN)は、学習したトークンのライブラリからサンプリングすることで、入力依存のプロンプトを生成する。
PGNは、事前学習されたモデルを様々な新しいデータセットに適応させるのに有効であることを示す。
PGNはフリーズモデルの下流適応のための,実用的でスケーラブルなアプローチである。
- 参考スコア(独自算出の注目度): 9.080472817672264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pretrained models, especially those trained from vision-language
data have demonstrated the tremendous value that can be gained from both larger
training datasets and models. Thus, in order to benefit from these
developments, there is renewed interest in transfer learning and adapting
models from large-scale general pretraining to particular downstream tasks.
However, the continuously increasing size of the models means that even the
classic approach of finetuning is becoming infeasible for all but big
institutions. Prompt leaning has emerged as a flexible way to adapt models by
solely learning additional inputs to a model that is kept frozen, but so far
performances remained inferior to finetuning. To address this, we propose the
Prompt Generation Network (PGN) that generates input-dependent prompts by
sampling from a learned library of tokens. We show the PGN is effective in
adapting pretrained models to various new datasets. It surpasses previous
prompt-learning methods by a large margin and even fullfinetuning on 5 out of
12 datasets while requiring 100x less parameters. PGN can even be used for
training and inferring on multiple datasets simultaneously and learns to
allocate tokens between domains. Given these findings, we conclude that PGN is
a viable and scalable approach for downstream adaptation of frozen models. Code
is available at https://github.com/jochemloedeman/PGN.
- Abstract(参考訳): 大規模な事前トレーニングモデル、特に視覚言語データからトレーニングされたモデルは、より大きなトレーニングデータセットとモデルの両方から得られる膨大な価値を示しています。
したがって、これらの発展の恩恵を受けるために、大規模な一般事前学習から特定の下流タスクへの移行学習と適応モデルへの新たな関心が高まっている。
しかし、モデルのサイズが継続的に大きくなることは、ファインチューニングの古典的アプローチでさえ、大きな機関を除いては不可能になりつつあることを意味している。
素早い傾きは、凍結されたモデルへの追加入力のみを学習することによって、モデルに適応するための柔軟な方法として現れてきたが、これまでは微調整よりもパフォーマンスが劣っていた。
そこで本稿では,トークンの学習ライブラリから抽出した入力依存的なプロンプトを生成するPrompt Generation Network (PGN)を提案する。
PGNは様々な新しいデータセットに事前学習モデルを適用するのに有効であることを示す。
従来のプロンプト学習手法を大きなマージンで上回り、12のデータセットのうち5つをフルフィニングし、パラメータを100倍少なくする。
pgnは複数のデータセットを同時にトレーニングし推論するためにも使え、ドメイン間でトークンを割り当てることを学ぶことができる。
これらの結果から, PGNは凍結モデルの下流適応のための, 実用的でスケーラブルなアプローチであると結論付けた。
コードはhttps://github.com/jochemloedeman/pgnで入手できる。
関連論文リスト
- Re-parameterized Low-rank Prompt: Generalize a Vision-Language Model
within 0.5K Parameters [75.28536311904489]
そこで我々は,RLP(Re- parameterized Low-rank Prompt)という新しいタイプのプロンプトを開発した。
11データセットを超える一連のタスクにおいて、RLPは0.5Kパラメータだけで古典的なプロンプトチューニングの平均下流精度を最大5.25%向上させる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - Neural Prompt Search [38.68910532066619]
本稿では,大規模視覚モデルのための新しいアプローチであるNeural prOmpt seArcHを提案する。
NOAHは、大きな視覚モデルに対して、ニューラルネットワーク探索アルゴリズムを通じてプロンプトモジュールの最適設計を学ぶ。
論文 参考訳(メタデータ) (2022-06-09T17:59:58Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。