論文の概要: Prompt Generation Networks for Input-Space Adaptation of Frozen Vision Transformers
- arxiv url: http://arxiv.org/abs/2210.06466v3
- Date: Fri, 30 Aug 2024 20:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 23:05:43.440867
- Title: Prompt Generation Networks for Input-Space Adaptation of Frozen Vision Transformers
- Title(参考訳): 凍結型視覚変換器の入力空間適応のためのプロンプト生成ネットワーク
- Authors: Jochem Loedeman, Maarten C. Stol, Tengda Han, Yuki M. Asano,
- Abstract要約: ビジュアル・インプット・プロンプト・ラーニング(Visual input-prompt learning)は、視覚空間(RGB)における付加的なインプットを学習する適応手法である。
Prompt Generation Networkは、事前学習されたモデルを様々な新しいデータセットに効果的に適応させることを示す。
我々はまた、PGNを遅延空間で効率的に訓練できるが、推論のためにRGB入力空間に展開する"prompt inversion"トリックも導入した。
- 参考スコア(独自算出の注目度): 21.518061372216984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the introduction of the transformer architecture in computer vision, increasing model scale has been demonstrated as a clear path to achieving performance and robustness gains. However, with model parameter counts reaching the billions, classical finetuning approaches are becoming increasingly limiting and even unfeasible when models become hosted as inference APIs, as in NLP. Visual input-prompt learning, an adaptation technique in which additional inputs in visual (RGB) space are learned, has emerged as a potential solution for adapting frozen and cloud-hosted models, requiring neither access to the forward pass, nor post-processing. Yet so far, these constraints have deteriorated adaptation performances significantly. To this end, we propose the Prompt Generation Network (PGN) that generates a different prompt for every data point, which is then used to adapt a frozen pretrained vision model to a target task. We show that the PGN effectively adapts pretrained models to various new datasets: It surpasses previous methods by a large margin on 12/12 datasets and even outperforms full-finetuning on 5/12, while requiring 100x fewer parameters. Lastly, we introduce the "prompt inversion" trick, with which PGNs can be efficiently trained in a latent space but deployed in RGB input space for inference.
- Abstract(参考訳): コンピュータビジョンにおけるトランスフォーマーアーキテクチャの導入により、モデルスケールの増大は、パフォーマンスとロバスト性向上を達成するための明確な経路として実証されている。
しかし、モデルパラメータが数十億に達すると、NLPのようにモデルが推論APIとしてホストされるようになると、古典的な微調整アプローチはますます制限され、実現不可能になってきています。
視覚的入力プロンプト学習(Visual input-prompt learning)は、視覚的(RGB)空間における追加入力を学習する適応技術であり、フォワードパスへのアクセスも後処理も必要とせず、凍結およびクラウドホストされたモデルに適応するための潜在的な解決策として登場した。
しかし、これまでのところ、これらの制約は適応性能を著しく低下させてきた。
そこで本研究では,各データポイント毎に異なるプロンプトを生成するPrompt Generation Network(PGN)を提案する。
PGNは、トレーニング済みのモデルを様々な新しいデータセットに効果的に適応することを示します。
最後に、PGNを遅延空間で効率よく訓練できるが、推論のためにRGB入力空間に展開する"prompt inversion"手法を紹介する。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - Gradient Projection For Continual Parameter-Efficient Tuning [42.800411328615894]
我々は勾配投影の観点からAdapter, LoRA, Prefix-tuning, Prompt-tuningを再構成する。
大規模モデルであっても,勾配の条件は忘れることに効果的に抵抗できることを示す。
多様なデータセットを用いて,VTやCLIPを含む異なるバックボーンを用いて,本手法を広範囲に評価した。
論文 参考訳(メタデータ) (2024-05-22T06:33:48Z) - Feature Distribution Shift Mitigation with Contrastive Pretraining for Intrusion Detection [7.986219763892841]
モデル事前学習により,特徴分布シフトに対するロバスト性は8%以上向上することを示した。
また,適切な数値埋め込み戦略により,事前学習モデルの性能が向上することを示す。
提案したSwapConモデルは、eXtreme Gradient Boosting(XGBoost)およびK-Nearest Neighbor(KNN)ベースのモデルよりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-04-23T10:15:10Z) - Dynamic Adapter Meets Prompt Tuning: Parameter-Efficient Transfer Learning for Point Cloud Analysis [51.14136878142034]
ポイントクラウド分析は、事前訓練されたモデルのポイントクラウドの転送によって、優れたパフォーマンスを実現している。
モデル適応のための既存の方法は通常、高い計算コストに依存するため、非効率な全てのモデルパラメータを更新する。
本稿では,タスク性能とパラメータ効率のトレードオフを考慮した,ポイントクラウド解析のためのパラメータ効率変換学習を提案する。
論文 参考訳(メタデータ) (2024-03-03T08:25:04Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Pre-Trained Models for Heterogeneous Information Networks [57.78194356302626]
異種情報ネットワークの特徴を捉えるための自己教師付き事前学習・微調整フレームワークPF-HINを提案する。
PF-HINは4つのデータセットにおいて、各タスクにおける最先端の代替よりも一貫して、大幅に優れています。
論文 参考訳(メタデータ) (2020-07-07T03:36:28Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。