論文の概要: Pro-tuning: Unified Prompt Tuning for Vision Tasks
- arxiv url: http://arxiv.org/abs/2207.14381v1
- Date: Thu, 28 Jul 2022 21:09:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-01 12:51:13.384441
- Title: Pro-tuning: Unified Prompt Tuning for Vision Tasks
- Title(参考訳): pro-tuning: 視覚タスクのための統一的なプロンプトチューニング
- Authors: Xing Nie, Bolin Ni, Jianlong Chang, Gaomeng Meng, Chunlei Huo,
Zhaoxiang Zhang, Shiming Xiang, Qi Tian, Chunhong Pan
- Abstract要約: ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。
本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
- 参考スコア(独自算出の注目度): 133.12978197265596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In computer vision, fine-tuning is the de-facto approach to leverage
pre-trained vision models to perform downstream tasks. However, deploying it in
practice is quite challenging, due to adopting parameter inefficient global
update and heavily relying on high-quality downstream data. Recently,
prompt-based learning, which adds a task-relevant prompt to adapt the
downstream tasks to pre-trained models, has drastically boosted the performance
of many natural language downstream tasks. In this work, we extend this notable
transfer ability benefited from prompt into vision models as an alternative to
fine-tuning. To this end, we propose parameter-efficient Prompt tuning
(Pro-tuning) to adapt frozen vision models to various downstream vision tasks.
The key to Pro-tuning is prompt-based tuning, i.e., learning task-specific
vision prompts for downstream input images with the pre-trained model frozen.
By only training a few additional parameters, it can work on diverse CNN-based
and Transformer-based architectures. Extensive experiments evidence that
Pro-tuning outperforms fine-tuning in a broad range of vision tasks and
scenarios, including image classification (generic objects, class imbalance,
image corruption, adversarial robustness, and out-of-distribution
generalization), and dense prediction tasks such as object detection and
semantic segmentation.
- Abstract(参考訳): コンピュータビジョンでは、微調整は、訓練済みの視覚モデルを利用して下流のタスクを実行するデファクトアプローチである。
しかし、パラメータ非効率なグローバルアップデートを採用し、高品質なダウンストリームデータに大きく依存しているため、実際にデプロイするのは極めて難しい。
近年,先行訓練されたモデルに下流タスクを適応させるタスク関連プロンプトを付加したプロンプトベースの学習により,多くの下流タスクの性能が大幅に向上した。
この作業では、微調整の代替として、プロンプトから得られるメリットをビジョンモデルに拡張します。
そこで本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するためのパラメータ効率の高いプロンプトチューニング(pro-tuning)を提案する。
プロチューニングの鍵は、プレトレーニングされたモデルが凍結されたダウンストリーム入力イメージに対するタスク固有のビジョンプロンプトの学習である。
追加パラメータをトレーニングするだけで、さまざまなcnnベースおよびtransformerベースのアーキテクチャで作業することができる。
広範囲にわたる実験により、プロチューニングは、画像分類(ジェネリックオブジェクト、クラス不均衡、画像の汚損、敵対的ロバスト性、分布外一般化)や、オブジェクト検出やセマンティックセグメンテーションなどの密集した予測タスクなど、幅広い視覚タスクやシナリオにおいて微調整よりも優れていることが証明された。
関連論文リスト
- Intra-task Mutual Attention based Vision Transformer for Few-Shot Learning [12.5354658533836]
人間は、ほんのわずかの例に晒された後に、新しい、目に見えない画像を正確に分類する能力を持っている。
人工ニューラルネットワークモデルでは、限られたサンプルを持つ2つのイメージを区別する最も関連性の高い特徴を決定することが課題である。
本稿では,サポートとクエリサンプルをパッチに分割するタスク内相互注意手法を提案する。
論文 参考訳(メタデータ) (2024-05-06T02:02:57Z) - Visual Tuning [143.43997336384126]
微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。
最近の進歩は、事前訓練されたパラメータ全体をフルチューニングするよりも優れたパフォーマンスを達成することができる。
この調査は、最近の作品の大規模かつ思慮深い選択を特徴付け、作業とモデルの体系的かつ包括的な概要を提供する。
論文 参考訳(メタデータ) (2023-05-10T11:26:36Z) - Rethinking Visual Prompt Learning as Masked Visual Token Modeling [106.71983630652323]
マスク付き視覚トークンモデリング(VPTM)として視覚プロンプト学習を提案し、下流の視覚分類を事前訓練されたマスク付き視覚トークン予測に変換する。
VPTMは、生成前訓練された視覚モデルにおける最初の視覚的プロンプト法であり、タスク修正による事前学習と下流視覚分類の整合性を実現する。
論文 参考訳(メタデータ) (2023-03-09T02:43:10Z) - Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision
Tasks [36.34331439747556]
本稿では,複数のタスクにまたがる情報をトレーニング可能なパラメータで共有するために,PolyhistorとPolyhistor-Liteを提案する。
具体的には、Polyhistorは、トレーニング可能なパラメータの10%しか使用せず、最先端技術と比較して、競争精度を達成している。
論文 参考訳(メタデータ) (2022-10-07T00:25:02Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Parameter-Efficient Image-to-Video Transfer Learning [66.82811235484607]
様々な下流タスクのための大規模な事前訓練されたモデルが、最近、有望なパフォーマンスで登場した。
モデルのサイズが拡大しているため、モデルトレーニングや記憶の面では、標準のフルチューニングベースのタスク適応戦略がコストがかかる。
本稿では,ビデオタスク毎のパラメータ効率の高い微調整のための新しいスペーシ・アダプタを提案する。
論文 参考訳(メタデータ) (2022-06-27T18:02:29Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。