論文の概要: MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene
Classification
- arxiv url: http://arxiv.org/abs/2309.09276v1
- Date: Sun, 17 Sep 2023 13:51:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 16:32:07.233001
- Title: MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene
Classification
- Title(参考訳): MVP: リモートセンシング画像シーン分類のためのメタビジュアルプロンプトチューニング
- Authors: Junjie Zhu, Yiying Li, Chunping Qiu, Ke Yang, Naiyang Guan, Xiaodong
Yi
- Abstract要約: PMFは、事前訓練された視覚変換器モデルを用いて、少数の画像分類において有望な結果を得た。
今回提案するMeta Visual Prompt Tuning(MVP)メソッドは,新たに追加されたプロンプトパラメータのみを更新し,事前学習したバックボーンを凍結し続ける。
分類目的のシーンの表現と多様性を高めるために,パッチ埋め込み組換えに基づく新しいデータ拡張戦略を導入する。
- 参考スコア(独自算出の注目度): 15.780372479483235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Transformer (ViT) models have recently emerged as powerful and
versatile models for various visual tasks. Recently, a work called PMF has
achieved promising results in few-shot image classification by utilizing
pre-trained vision transformer models. However, PMF employs full fine-tuning
for learning the downstream tasks, leading to significant overfitting and
storage issues, especially in the remote sensing domain. In order to tackle
these issues, we turn to the recently proposed parameter-efficient tuning
methods, such as VPT, which updates only the newly added prompt parameters
while keeping the pre-trained backbone frozen. Inspired by VPT, we propose the
Meta Visual Prompt Tuning (MVP) method. Specifically, we integrate the VPT
method into the meta-learning framework and tailor it to the remote sensing
domain, resulting in an efficient framework for Few-Shot Remote Sensing Scene
Classification (FS-RSSC). Furthermore, we introduce a novel data augmentation
strategy based on patch embedding recombination to enhance the representation
and diversity of scenes for classification purposes. Experiment results on the
FS-RSSC benchmark demonstrate the superior performance of the proposed MVP over
existing methods in various settings, such as various-way-various-shot,
various-way-one-shot, and cross-domain adaptation.
- Abstract(参考訳): Vision Transformer (ViT) モデルは、様々な視覚タスクのための強力で汎用的なモデルとして最近登場した。
近年、PMFと呼ばれる研究は、事前学習された視覚変換器モデルを利用して、数ショット画像分類において有望な成果を上げている。
しかし、pmfは下流タスクを学習するために完全な微調整を採用しており、特にリモートセンシング領域において、大きな過剰フィッティングとストレージの問題を引き起こしている。
これらの問題に対処するために、最近提案されたVPTのようなパラメータ効率のよいチューニング手法に目を向け、事前学習したバックボーンを凍結させながら、新たに追加されたプロンプトパラメータのみを更新する。
本稿ではVPTにインスパイアされたMeta Visual Prompt Tuning(MVP)手法を提案する。
具体的には、VPTメソッドをメタラーニングフレームワークに統合し、それをリモートセンシングドメインに調整することで、Few-Shot Remote Sensing Scene Classification (FS-RSSC) の効率的なフレームワークを実現する。
さらに,分類目的のシーンの表現と多様性を高めるために,パッチ埋め込み組換えに基づく新しいデータ拡張戦略を導入する。
FS-RSSCベンチマークによる実験結果から,様々な方向可変ショット,多様な方向ワンショット,ドメイン間の適応など,既存の手法よりもMVPの方が優れた性能を示した。
関連論文リスト
- Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - FLIP: Cross-domain Face Anti-spoofing with Language Guidance [19.957293190322332]
Face Anti-Spoofing (FAS) またはプレゼンテーションアタック検出は、顔認識システムにおいて不可欠な要素である。
最近の視覚変換器(ViT)モデルはFASタスクに有効であることが示されている。
本稿では、自然言語の助けを借りて視覚表現を基盤とした、堅牢なドメイン間FASのための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-09-28T17:53:20Z) - Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning [0.8430481660019451]
本稿では動的ビジュアルプロンプトチューニングフレームワーク(DVPT)を提案する。
このようにして、各画像のユニークな視覚的特徴をキャプチャし、より下流の視覚的タスクに適している。
幅広い下流認識タスクの実験により、DVPTは他のPETL法よりも優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2023-09-12T10:47:37Z) - M2Former: Multi-Scale Patch Selection for Fine-Grained Visual
Recognition [4.621578854541836]
既存のViTモデルにおけるマルチスケール機能を改善するために,マルチスケールパッチ選択(MSPS)を提案する。
具体的には、MSPSは視覚変換器(MS-ViT)の異なる段階で異なるスケールの正解パッチを選択する。
さらに、クラストークン転送(CTT)とマルチスケールクロスアテンション(MSCA)を導入し、選択したマルチスケールパッチ間のクロススケールインタラクションをモデル化し、モデル決定でそれらを完全に反映する。
論文 参考訳(メタデータ) (2023-08-04T06:41:35Z) - Instruction-ViT: Multi-Modal Prompts for Instruction Learning in ViT [58.70209492842953]
本稿では、画像分類のための視覚変換器モデルに命令調律に基づく即時設計を適用することに焦点を当てる。
鍵となる考え方は、カテゴリ情報に関連するマルチモーダルプロンプトを実装し、モデルの微調整を導くことである。
いくつかの画像キャプションタスクの実験に基づいて、性能とドメイン適応性を改善した。
論文 参考訳(メタデータ) (2023-04-29T08:59:12Z) - Strong Baselines for Parameter Efficient Few-Shot Fine-tuning [50.83426196335385]
FSC (Few-shot Classification) は、事前訓練(メタトレーニング)フェーズの後にクラス毎にいくつかの例を与えられた新しいクラスを学習する。
近年の研究では、新しいテストクラスで事前訓練された視覚変換器(ViT)を微調整することが、FSCにとって強力なアプローチであることが示されている。
しかし、微調整のViTは、時間、計算、ストレージに費用がかかる。
これにより、Transformerのパラメータのごく一部だけを微調整するPEFT法が考案された。
論文 参考訳(メタデータ) (2023-04-04T16:14:39Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Adaptive Transformers for Robust Few-shot Cross-domain Face
Anti-spoofing [71.06718651013965]
我々は、堅牢なクロスドメイン顔アンチスプーフィングのための適応型視覚変換器(ViT)を提案する。
私たちはVTをバックボーンとして採用し、その強度を利用して画素間の長距離依存を考慮します。
いくつかのベンチマークデータセットの実験では、提案されたモデルが堅牢かつ競合的なパフォーマンスを達成することが示されている。
論文 参考訳(メタデータ) (2022-03-23T03:37:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。