論文の概要: Rethinking Visual Prompt Learning as Masked Visual Token Modeling
- arxiv url: http://arxiv.org/abs/2303.04998v2
- Date: Fri, 15 Dec 2023 15:44:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 19:46:58.801066
- Title: Rethinking Visual Prompt Learning as Masked Visual Token Modeling
- Title(参考訳): マスキングビジュアルトークンモデリングとしてのビジュアルプロンプト学習の再考
- Authors: Ning Liao, Bowen Shi, Xiaopeng Zhang, Min Cao, Junchi Yan, Qi Tian
- Abstract要約: マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
- 参考スコア(独自算出の注目度): 106.71983630652323
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning has achieved great success in efficiently exploiting
large-scale pre-trained models in natural language processing (NLP). It
reformulates the downstream tasks as the generative pre-training ones to
achieve consistency, thus improving the performance stably. However, when
transferring it to the vision area, current visual prompt learning methods are
almost designed on discriminative pre-trained models, and there is also a lack
of careful design to unify the forms of pre-training and downstream tasks. To
explore prompt learning on the generative pre-trained visual model, as well as
keeping the task consistency, we propose Visual Prompt learning as masked
visual Token Modeling (VPTM) to transform the downstream visual classification
into the pre-trained masked visual token prediction. In addition, we develop
the prototypical verbalizer for mapping the predicted visual token with
implicit semantics to explicit downstream labels. To our best knowledge, VPTM
is the first visual prompt method on the generative pre-trained visual model,
which achieves consistency between pre-training and downstream visual
classification by task reformulation. Experiments show that VPTM outperforms
other visual prompt methods and achieves excellent efficiency. Moreover, the
task consistency of VPTM contributes to the robustness against prompt location,
prompt length and prototype dimension, and could be deployed uniformly.
- Abstract(参考訳): プロンプト学習は、自然言語処理(NLP)における大規模事前学習モデルを効率的に活用することに成功した。
下流タスクを生成前トレーニングタスクとして再構成し、一貫性を実現し、パフォーマンスを安定的に向上させる。
しかし、視覚領域に移す場合、現在の視覚プロンプト学習法は、ほぼ判別的事前学習モデルに基づいて設計されるが、事前訓練と下流タスクの形式を統合するための注意深い設計が欠如している。
生成前訓練された視覚モデルに対する迅速な学習とタスクの整合性を維持するため、我々は、下流の視覚分類を事前訓練された視覚トークン予測に変換するために、マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案する。
さらに,予測された視覚トークンを暗黙のセマンティクスにマッピングし,明示的な下流ラベルにマッピングする原型的動詞化器を開発した。
我々の知る限り、VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト手法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
実験により、VPTMは他の視覚的プロンプト法よりも優れ、優れた効率を達成することが示された。
さらに、VPTMのタスク一貫性は、迅速な位置、迅速な長さ、プロトタイプ次元に対する堅牢性に寄与し、均一にデプロイできる。
関連論文リスト
- Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - What Makes for Good Visual Tokenizers for Large Language Models? [26.488269091290597]
優れた視覚的トークン化を実現するための適切な事前学習手法について検討し,LLM(Large Language Models)とMLLM(Multimodal Large Language Models)について検討した。
支配的手法(DeiT, CLIP, MAE, DINO)で事前訓練した視覚トークン化剤について検討する。
GVT(Good Visual Tokenizer)を備えたMLLMは,複数スケールで強力な視覚理解能力を示す。
論文 参考訳(メタデータ) (2023-05-20T16:11:26Z) - Progressive Visual Prompt Learning with Contrastive Feature Re-formation [15.385630262368661]
本稿では,異なるレイヤのプロンプト間の相互作用を強化するために,プログレッシブ・ビジュアル・プロンプト(ProVP)構造を提案する。
我々のProVPは、画像の埋め込みを深い層に効果的に伝播させ、インスタンス適応的なプロンプトメソッドと部分的に似た振る舞いをすることができる。
我々の知る限り、我々はV-Lモデルにおける視覚的プロンプトの、下流タスクにおける従来のプロンプトベースの手法よりも優れた性能を示す最初の人物である。
論文 参考訳(メタデータ) (2023-04-17T15:54:10Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。