論文の概要: Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling
- arxiv url: http://arxiv.org/abs/2403.06978v1
- Date: Mon, 11 Mar 2024 17:59:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-12 17:48:57.399700
- Title: Attention Prompt Tuning: Parameter-efficient Adaptation of Pre-trained
Models for Spatiotemporal Modeling
- Title(参考訳): Attention Prompt Tuning:時空間モデリングのための事前学習モデルのパラメータ効率適応
- Authors: Wele Gedara Chaminda Bandara and Vishal M. Patel
- Abstract要約: 本稿では,アクション認識などのビデオベースアプリケーションに対して,Attention Prompt Tuning(APT)を導入する。
APTは、バックボーンを凍結させながら微調整中にデータトークンとともに学習可能なプロンプトのセットを注入する。
提案手法は,FLOPとレイテンシを著しく低減するとともに,大幅な性能向上を実現している。
- 参考スコア(独自算出の注目度): 32.603558214472265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Attention Prompt Tuning (APT) - a computationally
efficient variant of prompt tuning for video-based applications such as action
recognition. Prompt tuning approaches involve injecting a set of learnable
prompts along with data tokens during fine-tuning while keeping the backbone
frozen. This approach greatly reduces the number of learnable parameters
compared to full tuning. For image-based downstream tasks, normally a couple of
learnable prompts achieve results close to those of full tuning. However,
videos, which contain more complex spatiotemporal information, require hundreds
of tunable prompts to achieve reasonably good results. This reduces the
parameter efficiency observed in images and significantly increases latency and
the number of floating-point operations (FLOPs) during inference. To tackle
these issues, we directly inject the prompts into the keys and values of the
non-local attention mechanism within the transformer block. Additionally, we
introduce a novel prompt reparameterization technique to make APT more robust
against hyperparameter selection. The proposed APT approach greatly reduces the
number of FLOPs and latency while achieving a significant performance boost
over the existing parameter-efficient tuning methods on UCF101, HMDB51, and
SSv2 datasets for action recognition. The code and pre-trained models are
available at https://github.com/wgcban/apt
- Abstract(参考訳): 本稿では,アクション認識などのビデオベースアプリケーションのためのプロンプトチューニングの計算効率のよい変種であるAttention Prompt Tuning (APT)を紹介する。
プロンプトチューニングアプローチでは、バックボーンの凍結を維持しながら微調整中に、学習可能なプロンプトとデータトークンのセットを注入する。
このアプローチは完全なチューニングに比べて学習可能なパラメータの数を大幅に削減する。
イメージベースのダウンストリームタスクの場合、通常、学習可能なプロンプトがフルチューニングのタスクに近い結果を得る。
しかし、より複雑な時空間情報を含むビデオは、合理的に良い結果を得るために数百の調整可能なプロンプトを必要とする。
これにより、画像で観察されるパラメータ効率を低減し、推論中のレイテンシと浮動小数点演算(FLOP)の数を大幅に増加させる。
これらの問題に対処するために,変圧器ブロック内の非局所注意機構のキーと値に直接プロンプトを注入する。
さらに,APTをハイパーパラメータ選択に対してより堅牢にするための新しいプロンプト再パラメータ化手法を提案する。
提案手法は,動作認識のための既存のパラメータ効率チューニング手法であるUCF101, HMDB51, SSv2データセットに対して, FLOPとレイテンシを大幅に削減する。
コードと事前訓練されたモデルはhttps://github.com/wgcban/aptで入手できる。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法と比較すると、同等またはそれ以上の性能を実現している。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Do We Really Need a Large Number of Visual Prompts? [23.85637456240694]
視覚変換器アーキテクチャの微調整性能と自己注意操作に及ぼすプロンプト数の影響を解析する。
本稿では,少数のプロンプトを用いて性能劣化を防止することを目的とした,PC(Prompt Condensation)技術を提案する。
論文 参考訳(メタデータ) (2023-05-26T19:31:57Z) - Residual Prompt Tuning: Improving Prompt Tuning with Residual
Reparameterization [57.379285443780894]
Residual Prompt Tuningは,プロンプトチューニングの性能と安定性を大幅に向上させる,シンプルで効率的な手法である。
提案手法は,T5-Baseによるプロンプトチューニングよりも+7ポイント向上し,パフォーマンスを損なうことなく,プロンプト長を10倍短縮できることを示す。
論文 参考訳(メタデータ) (2023-05-06T05:35:14Z) - Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning [91.5113227694443]
私たちは新しいビジュアルを提案します。
Sensuous-Aware Fine-Tuning (SPT) スキーム。
SPTはタスク固有の重要な位置にトレーニング可能なパラメータを割り当てる。
ダウンストリーム認識タスクの幅広い実験により,SPTは既存のPEFT法と相補的であることが示された。
論文 参考訳(メタデータ) (2023-03-15T12:34:24Z) - Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts [97.20933523766182]
プロンプトチューニングは、事前訓練モデル(PTM)を利用するためのパラメータ効率チューニング(PETuning)手法である
我々は、入力層やすべての層の代わりに遅延プロンプトをPTMの中間層に挿入するLatlas Prompt Tuning()を提案する。
フルデータおよび少数ショットの両方のシナリオで、フルモデルチューニングや他のPETuningメソッドと競合する性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-10-20T14:23:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。