論文の概要: Do We Really Need a Large Number of Visual Prompts?
- arxiv url: http://arxiv.org/abs/2305.17223v2
- Date: Sun, 12 May 2024 21:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 01:42:01.294641
- Title: Do We Really Need a Large Number of Visual Prompts?
- Title(参考訳): 大量のビジュアルプロンプトは本当に必要か?
- Authors: Youngeun Kim, Yuhang Li, Abhishek Moitra, Ruokai Yin, Priyadarshini Panda,
- Abstract要約: 視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
- 参考スコア(独自算出の注目度): 23.85637456240694
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Due to increasing interest in adapting models on resource-constrained edges, parameter-efficient transfer learning has been widely explored. Among various methods, Visual Prompt Tuning (VPT), prepending learnable prompts to input space, shows competitive fine-tuning performance compared to training of full network parameters. However, VPT increases the number of input tokens, resulting in additional computational overhead. In this paper, we analyze the impact of the number of prompts on fine-tuning performance and self-attention operation in a vision transformer architecture. Through theoretical and empirical analysis we show that adding more prompts does not lead to linear performance improvement. Further, we propose a Prompt Condensation (PC) technique that aims to prevent performance degradation from using a small number of prompts. We validate our methods on FGVC and VTAB-1k tasks and show that our approach reduces the number of prompts by ~70% while maintaining accuracy.
- Abstract(参考訳): 資源制約のあるエッジにモデルを適用することへの関心が高まっているため、パラメータ効率の高い転送学習が広く研究されている。
Visual Prompt Tuning (VPT)は、入力空間への学習可能なプロンプトを予測し、完全なネットワークパラメータのトレーニングと比較して、競争力のある微調整性能を示す。
しかし、VPTは入力トークンの数を増やし、計算オーバーヘッドを増大させる。
本稿では,視覚トランスアーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
理論的および経験的分析を通して、より多くのプロンプトを追加すると線形性能が向上しないことを示す。
さらに,少数のプロンプトの使用による性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
提案手法はFGVCとVTAB-1kのタスクに対して検証し,精度を維持しながらプロンプト数を約70%削減することを示す。
関連論文リスト
- CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Visual Prompting for Generalized Few-shot Segmentation: A Multi-scale Approach [29.735863112700358]
本稿では,GFSSタスクにおいて,学習した視覚的プロンプトを用いたトランスフォーマーデコーダの有効性について検討する。
我々のゴールは、限られた例を持つ新しいカテゴリだけでなく、基本カテゴリにおけるパフォーマンスを維持することにある。
本稿では,新しいプロンプトと限られた例で学習したベースプロンプトと,豊富なデータで学習したベースプロンプトとの間に一方向因果注意機構を導入する。
論文 参考訳(メタデータ) (2024-04-17T20:35:00Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling [32.603558214472265]
本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:41Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Instance-wise Prompt Tuning for Pretrained Language Models [72.74916121511662]
インスタンスワイドのPrompt Tuning(IPT)は、入力データインスタンスからプロンプトに知識を注入する最初のプロンプト学習パラダイムである。
IPTはタスクベースのプロンプト学習法を著しく上回り、調律パラメータのわずか0.5%から1.5%で従来の微調整に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-06-04T10:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。