論文の概要: LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2402.17406v1
- Date: Tue, 27 Feb 2024 10:55:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 16:44:45.307866
- Title: LSPT: Long-term Spatial Prompt Tuning for Visual Representation Learning
- Title(参考訳): LSPT:視覚表現学習のための長期空間プロンプトチューニング
- Authors: Shentong Mo, Yansen Wang, Xufang Luo, Dongsheng Li
- Abstract要約: ビジュアルプロンプトチューニング(VPT)技術は、プロンプトと呼ばれる特別な学習可能なトークンを使用して、トレーニング済みの視覚変換器(ViT)を下流の視覚タスクに適応させる。
本稿では,視覚表現学習の革新的アプローチであるLSPT(Long-term Spatial Prompt Tuning)を紹介する。
我々の経験的知見はLSPTの優位性を裏付けるものであり、視覚的プロンプトチューニング性能に新たなベンチマークを設定する能力を示している。
- 参考スコア(独自算出の注目度): 36.843950725332476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Prompt Tuning (VPT) techniques have gained prominence for their
capacity to adapt pre-trained Vision Transformers (ViTs) to downstream visual
tasks using specialized learnable tokens termed as prompts. Contemporary VPT
methodologies, especially when employed with self-supervised vision
transformers, often default to the introduction of new learnable prompts or
gated prompt tokens predominantly sourced from the model's previous block. A
pivotal oversight in such approaches is their failure to harness the potential
of long-range previous blocks as sources of prompts within each self-supervised
ViT. To bridge this crucial gap, we introduce Long-term Spatial Prompt Tuning
(LSPT) - a revolutionary approach to visual representation learning. Drawing
inspiration from the intricacies of the human brain, LSPT ingeniously
incorporates long-term gated prompts. This feature serves as temporal coding,
curbing the risk of forgetting parameters acquired from earlier blocks. Further
enhancing its prowess, LSPT brings into play patch tokens, serving as spatial
coding. This is strategically designed to perpetually amass class-conscious
features, thereby fortifying the model's prowess in distinguishing and
identifying visual categories. To validate the efficacy of our proposed method,
we engaged in rigorous experimentation across 5 FGVC and 19 VTAB-1K benchmarks.
Our empirical findings underscore the superiority of LSPT, showcasing its
ability to set new benchmarks in visual prompt tuning performance.
- Abstract(参考訳): ビジュアルプロンプトチューニング(VPT)技術は、事前訓練された視覚変換器(ViT)をプロンプトと呼ばれる特別な学習可能なトークンを使用して下流の視覚タスクに適応させる能力で有名になった。
現代のVPT方法論、特に自己監督型視覚変換器を使用する場合、しばしば新しい学習可能なプロンプトを導入するか、モデルの以前のブロックから主に引き出されたプロンプトトークンをゲートする。
このようなアプローチにおける重要な監視は、各自己監督型ViT内のプロンプトの源として、長距離前のブロックの可能性を利用することができないことである。
この重要なギャップを埋めるために、視覚表現学習の革新的アプローチであるLSPT(Long-term Spatial Prompt Tuning)を導入する。
LSPTは人間の脳の複雑さからインスピレーションを得て、長期のゲートプロンプトを巧みに取り入れている。
この機能は時間的コーディングとして機能し、以前のブロックから取得したパラメータを忘れるリスクを抑制する。
LSPTはその技術をさらに強化し、空間符号化としてプレイパッチトークンを導入している。
戦略的には、クラスを意識した特徴を永久に蓄積し、視覚カテゴリーの識別と識別におけるモデルの長所を固めるように設計されている。
提案手法の有効性を検証するため、5つのFGVCと19のVTAB-1Kベンチマークで厳密な実験を行った。
実験の結果,lsptの優位性が強調され,視覚プロンプトチューニング性能における新しいベンチマークの設定能力が示された。
関連論文リスト
- Mixture of Experts Meets Prompt-Based Continual Learning [23.376460019465235]
本稿では、連続学習におけるそのような利点をいかにもたらすかを明らかにするための理論的分析を行う。
我々は,新しいタスク固有の専門家の追加として,プレフィックスチューニングに関する新しい視点を提供し,新しいゲーティング機構の設計を刺激する。
NoRGaの有効性は、様々なベンチマークや事前学習パラダイムで理論的にも経験的にも裏付けられている。
論文 参考訳(メタデータ) (2024-05-23T02:49:57Z) - Revisiting the Power of Prompt for Visual Tuning [50.11465784194896]
本研究では,プロンプトとパッチトークンの相互関係について検討した。
プロンプトトークンはパッチトークンと高い相互情報を共有する傾向にあるという観測から着想を得て,下流トークンのプロトタイプを用いた初期化プロンプトを提案する。
本手法は, 自己指導型プレトレーニングの適応性を著しく向上させ, 少なくとも10%から30%のタスク性能向上を実現した。
論文 参考訳(メタデータ) (2024-02-04T07:49:02Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Improving Visual Prompt Tuning for Self-supervised Vision Transformers [29.930641613984438]
Visual Prompt Tuning (VPT) は、トレーニング済みの視覚変換器(ViT)を下流タスクに適応させる効果的なチューニング手法である。
本稿では,各ViTブロックのゲートを学習して,プロンプトトークンへの介入を調整する手法を提案する。
提案手法は,FGVCおよびVTAB画像分類およびADE20KセマンティックセマンティックセグメンテーションにおけるVPT変種よりも優れている。
論文 参考訳(メタデータ) (2023-06-08T09:31:28Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - ViTs for SITS: Vision Transformers for Satellite Image Time Series [52.012084080257544]
ビジョン変換器(ViT)に基づく一般衛星画像時系列(SITS)処理のための完全アテンショナルモデルを提案する。
TSViTはSITSレコードを空間と時間で重複しないパッチに分割し、トークン化し、分解されたテンポロ空間エンコーダで処理する。
論文 参考訳(メタデータ) (2023-01-12T11:33:07Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。