論文の概要: Improving Visual Prompt Tuning for Self-supervised Vision Transformers
- arxiv url: http://arxiv.org/abs/2306.05067v1
- Date: Thu, 8 Jun 2023 09:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-09 15:05:17.838827
- Title: Improving Visual Prompt Tuning for Self-supervised Vision Transformers
- Title(参考訳): 自己教師付き視覚トランスフォーマの視覚プロンプトチューニングの改善
- Authors: Seungryong Yoo, Eunji Kim, Dahuin Jung, Jungbeom Lee, Sungroh Yoon
- Abstract要約: Visual Prompt Tuning (VPT) は、トレーニング済みの視覚変換器(ViT)を下流タスクに適応させる効果的なチューニング手法である。
本稿では,各ViTブロックのゲートを学習して,プロンプトトークンへの介入を調整する手法を提案する。
提案手法は,FGVCおよびVTAB画像分類およびADE20KセマンティックセマンティックセグメンテーションにおけるVPT変種よりも優れている。
- 参考スコア(独自算出の注目度): 29.930641613984438
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Prompt Tuning (VPT) is an effective tuning method for adapting
pretrained Vision Transformers (ViTs) to downstream tasks. It leverages extra
learnable tokens, known as prompts, which steer the frozen pretrained ViTs.
Although VPT has demonstrated its applicability with supervised vision
transformers, it often underperforms with self-supervised ones. Through
empirical observations, we deduce that the effectiveness of VPT hinges largely
on the ViT blocks with which the prompt tokens interact. Specifically, VPT
shows improved performance on image classification tasks for MAE and MoCo v3
when the prompt tokens are inserted into later blocks rather than the first
block. These observations suggest that there exists an optimal location of
blocks for the insertion of prompt tokens. Unfortunately, identifying the
optimal blocks for prompts within each self-supervised ViT for diverse future
scenarios is a costly process. To mitigate this problem, we propose a simple
yet effective method that learns a gate for each ViT block to adjust its
intervention into the prompt tokens. With our method, prompt tokens are
selectively influenced by blocks that require steering for task adaptation. Our
method outperforms VPT variants in FGVC and VTAB image classification and
ADE20K semantic segmentation. The code is available at
https://github.com/ryongithub/GatedPromptTuning.
- Abstract(参考訳): Visual Prompt Tuning (VPT)は、トレーニング済みの視覚変換器(ViT)を下流タスクに適応させる効果的なチューニング手法である。
プロンプトと呼ばれる追加の学習可能なトークンを利用し、凍結した事前訓練されたViTを操る。
vptは視覚トランスフォーマーに応用できることを示したが、しばしば自己監督トランスフォーマーで過小評価される。
経験的観察により、VPTヒンジの有効性は、プロンプトトークンが相互作用するViTブロックに大きく依存していることが推測される。
具体的には、第1ブロックではなく後ブロックにプロンプトトークンを挿入した場合、VPTはMAEとMoCo v3の画像分類タスクのパフォーマンスを改善した。
これらの観測は、プロンプトトークンの挿入に最適なブロックの位置があることを示唆している。
残念ながら、様々な将来のシナリオのために、各自己監督型ViT内のプロンプトの最適なブロックを特定することは、コストのかかるプロセスである。
この問題を軽減するため,vitブロック毎にゲートを学習し,プロンプトトークンへの介入を調整できる簡易かつ効果的な手法を提案する。
提案手法では,タスク適応のためのステアリングを必要とするブロックによって,プロンプトトークンが選択的に影響を受ける。
提案手法は,FGVCおよびVTAB画像分類およびADE20KセマンティックセマンティックセグメンテーションにおけるVPT変種よりも優れている。
コードはhttps://github.com/ryongithub/gatedprompttuningで入手できる。
関連論文リスト
- Adaptively Bypassing Vision Transformer Blocks for Efficient Visual Tracking [11.361394596302334]
ABTrackは、効率的な視覚追跡のためにトランスフォーマーブロックを適応的にバイパスする適応型計算フレームワークである。
本稿では,トランスブロックをバイパスすべきかどうかを判断するBypass Decision Module (BDM)を提案する。
本稿では,各トランスブロックにおけるトークンの潜在表現の次元を小さくする,新しいViTプルーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-12T09:39:18Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning [36.843950725332476]
ビジュアルプロンプトチューニング(VPT)技術は、プロンプトと呼ばれる特別な学習可能なトークンを使用して、トレーニング済みの視覚変換器(ViT)を下流の視覚タスクに適応させる。
本稿では,視覚表現学習の革新的アプローチであるLSPT(Long-term Spatial Prompt Tuning)を紹介する。
我々の経験的知見はLSPTの優位性を裏付けるものであり、視覚的プロンプトチューニング性能に新たなベンチマークを設定する能力を示している。
論文 参考訳(メタデータ) (2024-02-27T10:55:07Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - PriViT: Vision Transformers for Fast Private Inference [55.36478271911595]
Vision Transformer (ViT) アーキテクチャは、コンピュータビジョンアプリケーションのための最先端のディープモデルのバックボーンとして登場した。
ViTは、多くの非ポリノミカル操作のため、セキュアなマルチパーティプロトコルを使用したプライベート推論には適していない。
予測精度を維持しつつ,ViTの非線形性を選択的に"テイラー化"するアルゴリズムであるPriViTを提案する。
論文 参考訳(メタデータ) (2023-10-06T21:45:05Z) - MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers [14.787864686489032]
画像領域毎に最適なトークンスケールを選択する条件ゲーティング機構を導入する。
我々のゲーティングモジュールは、粗いパッチレベルでローカルに動作しているにもかかわらず意味のある意味を学習できることを示す。
トークンプルーニングとは対照的に、MSViTは入力に関する情報を失うことはないため、密集したタスクに容易に適用できる。
論文 参考訳(メタデータ) (2023-07-05T14:22:31Z) - Learning Expressive Prompting With Residuals for Vision Transformers [11.342913284654706]
視覚変換器(ViT)の有効適応に特化して学習パラダイムを改良したEXPRES(Expressive Prompts with Residuals)を提案する。
本手法は,VTABベンチマークの3/3カテゴリにおいて,画像分類,少ないショット学習,セマンティックセマンティックセマンティックセマンティクスにEXPRESを適用した。
論文 参考訳(メタデータ) (2023-03-27T20:47:01Z) - Auto-scaling Vision Transformers without Training [84.34662535276898]
本研究では,視覚変換器(ViT)の自動スケーリングフレームワークAs-ViTを提案する。
As-ViTは、ViTを効率的かつ原則的に自動的に発見し、スケールアップする。
As-ViTは統合されたフレームワークとして、分類と検出において高いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-02-24T06:30:55Z) - Self-slimmed Vision Transformer [52.67243496139175]
視覚変換器(ViT)は、様々な視覚タスクにおいて一般的な構造となり、CNN(Creative Convolutional Neural Network)よりも優れています。
本稿では,バニラVT,すなわちSiTに対する汎用的な自己スリム学習手法を提案する。
具体的には、まず、ViTの推論効率を向上させる新しいToken Slimming Module (TSM) を設計する。
論文 参考訳(メタデータ) (2021-11-24T16:48:57Z) - On Improving Adversarial Transferability of Vision Transformers [97.17154635766578]
視覚変換器(ViT)は、入力画像を、自己注意によるパッチのシーケンスとして処理する。
本稿では,ViTモデルの対角的特徴空間とその伝達性について検討する。
本稿では,ViTモデルのアーキテクチャに特有な2つの新しい戦略を紹介する。
論文 参考訳(メタデータ) (2021-06-08T08:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。