論文の概要: SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt
- arxiv url: http://arxiv.org/abs/2312.10376v1
- Date: Sat, 16 Dec 2023 08:23:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:51:44.748479
- Title: SA$^2$VP: Spatially Aligned-and-Adapted Visual Prompt
- Title(参考訳): SA$^2$VP:空間適応型ビジュアルプロンプト
- Authors: Wenjie Pei, Tongqi Xia, Fanglin Chen, Jinsong Li, Jiandong Tian,
Guangming Lu
- Abstract要約: 視覚的プロンプトチューニングの方法は、NLPから派生した逐次モデリングパラダイムに従う。
マイモデルモデルは、画像トークンマップに等しい大きさ(またはスケールした)の2次元プロンプトトークンマップを学習する。
我々のモデルは、個々の画像トークンをきめ細かな方法でプロンプトすることができる。
- 参考スコア(独自算出の注目度): 59.280491260635266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As a prominent parameter-efficient fine-tuning technique in NLP, prompt
tuning is being explored its potential in computer vision. Typical methods for
visual prompt tuning follow the sequential modeling paradigm stemming from NLP,
which represents an input image as a flattened sequence of token embeddings and
then learns a set of unordered parameterized tokens prefixed to the sequence
representation as the visual prompts for task adaptation of large vision
models. While such sequential modeling paradigm of visual prompt has shown
great promise, there are two potential limitations. First, the learned visual
prompts cannot model the underlying spatial relations in the input image, which
is crucial for image encoding. Second, since all prompt tokens play the same
role of prompting for all image tokens without distinction, it lacks the
fine-grained prompting capability, i.e., individual prompting for different
image tokens. In this work, we propose the \mymodel model (\emph{SA$^2$VP}),
which learns a two-dimensional prompt token map with equal (or scaled) size to
the image token map, thereby being able to spatially align with the image map.
Each prompt token is designated to prompt knowledge only for the spatially
corresponding image tokens. As a result, our model can conduct individual
prompting for different image tokens in a fine-grained manner. Moreover,
benefiting from the capability of preserving the spatial structure by the
learned prompt token map, our \emph{SA$^2$VP} is able to model the spatial
relations in the input image, leading to more effective prompting. Extensive
experiments on three challenging benchmarks for image classification
demonstrate the superiority of our model over other state-of-the-art methods
for visual prompt tuning. Code is available at
\emph{https://github.com/tommy-xq/SA2VP}.
- Abstract(参考訳): NLPにおけるパラメータ効率の優れた微調整技術として、コンピュータビジョンにおけるプロンプトチューニングの可能性を探っている。
視覚的プロンプトチューニングの典型的な方法は、入力イメージを平らなトークン埋め込みのシーケンスとして表現し、次にシーケンス表現にプレフィックスされた無秩序なパラメータ化トークンの集合を、大きな視覚モデルのタスク適応のための視覚的プロンプトとして学習するNLPから派生したシーケンシャルモデリングパラダイムに従う。
このような視覚的プロンプトの逐次モデリングパラダイムは大きな可能性を秘めているが、潜在的な制限は2つある。
まず、学習した視覚的プロンプトは、画像符号化に不可欠である入力画像の空間関係をモデル化できない。
第二に、すべてのプロンプトトークンは区別せずにすべてのイメージトークンをプロンプトするのと同じ役割を果たすため、個々のプロンプトが異なるイメージトークンをプロンプトするといった細かいプロンプト能力が欠けている。
本研究では,画像トークンマップに等しい(あるいは縮小)大きさの2次元プロンプトトークンマップを学習し,画像マップを空間的に整列させることができる, \mymodelモデル(\emph{sa$^2$vp})を提案する。
各プロンプトトークンは、空間対応の画像トークンに対してのみ、プロンプト知識として指定される。
その結果,このモデルでは,異なる画像トークンに対する個別のプロンプトをきめ細かな方法で行うことができる。
さらに,学習したプロンプトトークンマップによる空間構造保存の利点を生かして,入力画像内の空間関係をモデル化し,より効果的にプロンプトを行うことができる。
画像分類のための3つの挑戦的ベンチマーク実験は、視覚的プロンプトチューニングのための他の最先端手法よりも、我々のモデルの方が優れていることを示す。
コードは \emph{https://github.com/tommy-xq/SA2VP} で入手できる。
関連論文リスト
- Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - Tokenize Anything via Prompting [65.93061853439512]
我々は,任意のものを同時にセグメンテーションし,認識し,キャプションすることができる統一的,迅速なモデルを提案する。
我々は、50億のパラメータを持つ事前学習されたCLIPモデルから、巨大なセグメンテーションマスク、eg、SA-1Bマスク、セマンティックプリミティブを持つ一般化可能なモデルをトレーニングする。
我々は,このモデルが汎用領域コンテキストを符号化できる汎用領域レベルの画像トークン化器であると考えている。
論文 参考訳(メタデータ) (2023-12-14T17:01:02Z) - Rejuvenating image-GPT as Strong Visual Representation Learners [28.77567067712619]
本稿では,次のピクセルの予測に自己回帰事前学習を導入する先駆的な研究である画像GPTを強化する。
我々は、予測対象を生の画素から意味トークンにシフトし、視覚的内容の高レベルな理解を可能にする。
実験では、D-iGPTが視覚表現の強力な学習者として優れていることが示された。
論文 参考訳(メタデータ) (2023-12-04T18:59:20Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:10:17Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Character-Centric Story Visualization via Visual Planning and Token
Alignment [53.44760407148918]
ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることによって、従来のテキスト・画像生成を前進させる。
一貫性のあるストーリービジュアライゼーションの主な課題は、ストーリーに不可欠な文字を保存することです。
本稿では,Vector-Quantized Variational Autoencoderをテキスト・tovisual-tokenアーキテクチャで拡張する最近の研究に適応することを提案する。
論文 参考訳(メタデータ) (2022-10-16T06:50:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。