論文の概要: Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning
- arxiv url: http://arxiv.org/abs/2309.06123v1
- Date: Tue, 12 Sep 2023 10:47:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:31:32.944725
- Title: Dynamic Visual Prompt Tuning for Parameter Efficient Transfer Learning
- Title(参考訳): パラメータ高効率転送学習のための動的視覚プロンプトチューニング
- Authors: Chunqing Ruan, Hongjian Wang
- Abstract要約: 本稿では動的ビジュアルプロンプトチューニングフレームワーク(DVPT)を提案する。
このようにして、各画像のユニークな視覚的特徴をキャプチャし、より下流の視覚的タスクに適している。
幅広い下流認識タスクの実験により、DVPTは他のPETL法よりも優れた性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 0.8430481660019451
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Parameter efficient transfer learning (PETL) is an emerging research spot
that aims to adapt large-scale pre-trained models to downstream tasks. Recent
advances have achieved great success in saving storage and computation costs.
However, these methods do not take into account instance-specific visual clues
for visual tasks. In this paper, we propose a Dynamic Visual Prompt Tuning
framework (DVPT), which can generate a dynamic instance-wise token for each
image. In this way, it can capture the unique visual feature of each image,
which can be more suitable for downstream visual tasks. We designed a Meta-Net
module that can generate learnable prompts based on each image, thereby
capturing dynamic instance-wise visual features. Extensive experiments on a
wide range of downstream recognition tasks show that DVPT achieves superior
performance than other PETL methods. More importantly, DVPT even outperforms
full fine-tuning on 17 out of 19 downstream tasks while maintaining high
parameter efficiency. Our code will be released soon.
- Abstract(参考訳): パラメータ効率的な伝達学習(PETL)は,大規模事前学習モデルの下流タスクへの適応を目的とした,新たな研究分野である。
近年の進歩はストレージと計算コストの削減に大きな成功を収めている。
しかし、これらのメソッドは、視覚的タスクのインスタンス固有の視覚的手掛かりを考慮していない。
本稿では,各画像に対して動的インスタンス単位のトークンを生成する動的ビジュアルプロンプトチューニングフレームワーク(DVPT)を提案する。
このようにして、各画像のユニークな視覚的特徴をキャプチャし、より下流の視覚的タスクに適している。
各画像に基づいて学習可能なプロンプトを生成し,動的インスタンス毎の視覚的特徴をキャプチャするメタネットモジュールを設計した。
広範囲な下流認識タスクに対する広範囲な実験により、DVPTは他のPETL法よりも優れた性能を発揮することが示された。
さらに重要なことに、dvptは、19のダウンストリームタスク中17の完全な微調整を上回り、高いパラメータ効率を維持している。
私たちのコードはまもなくリリースされます。
関連論文リスト
- Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - MVP: Meta Visual Prompt Tuning for Few-Shot Remote Sensing Image Scene
Classification [15.780372479483235]
PMFは、事前訓練された視覚変換器モデルを用いて、少数の画像分類において有望な結果を得た。
今回提案するMeta Visual Prompt Tuning(MVP)メソッドは,新たに追加されたプロンプトパラメータのみを更新し,事前学習したバックボーンを凍結し続ける。
分類目的のシーンの表現と多様性を高めるために,パッチ埋め込み組換えに基づく新しいデータ拡張戦略を導入する。
論文 参考訳(メタデータ) (2023-09-17T13:51:05Z) - Explicit Visual Prompting for Universal Foreground Segmentations [55.51869354956533]
我々は,タスク固有の設計を伴わずに,複数の前景セグメンテーションタスクを統一したフレームワークを提案する。
我々は、広く使われている事前学習からインスピレーションを得て、NLPのチューニングプロトコルを高速化する。
本手法は,事前学習したモデルを凍結し,いくつかのパラメータを用いてタスク固有の知識を学習する。
論文 参考訳(メタデータ) (2023-05-29T11:05:01Z) - Dynamic Prompting: A Unified Framework for Prompt Tuning [33.175097465669374]
本稿では、特定のタスクやインスタンスに基づいて、異なるプロンプトの要因を動的に決定する統合動的プロンプト(DP)チューニング戦略を提案する。
実験結果は、幅広いタスクにわたる動的プロンプトチューニングによって達成された顕著なパフォーマンス改善を裏付けるものである。
我々は、全データ、少数ショット、マルチタスクのシナリオの下で、我々のアプローチの普遍的な適用性を確立する。
論文 参考訳(メタデータ) (2023-03-06T06:04:46Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Dual Modality Prompt Tuning for Vision-Language Pre-Trained Model [39.722927180264584]
本稿では、テキストと視覚的プロンプトを同時に学習することで、新しいDual-modality Prompt Tuning(DPT)パラダイムを提案する。
最終的な画像特徴をよりターゲットの視覚概念に集中させるため,クラス認識型ビジュアルプロンプトチューニング方式を提案する。
論文 参考訳(メタデータ) (2022-08-17T15:06:36Z) - Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文 参考訳(メタデータ) (2022-07-28T21:09:31Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。