論文の概要: Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning?
- arxiv url: http://arxiv.org/abs/2401.12902v1
- Date: Tue, 23 Jan 2024 16:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:12:17.484777
- Title: Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning?
- Title(参考訳): 部屋のエレファントに挑戦する:ビジュアル・プロンプト・チューニングかフル・ファインタニングか?
- Authors: Cheng Han, Qifan Wang, Yiming Cui, Wenguan Wang, Lifu Huang, Siyuan
Qi, Dongfang Liu
- Abstract要約: Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 92.23438255540968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scale of vision models continues to grow, the emergence of Visual
Prompt Tuning (VPT) as a parameter-efficient transfer learning technique has
gained attention due to its superior performance compared to traditional
full-finetuning. However, the conditions favoring VPT (the ``when") and the
underlying rationale (the ``why") remain unclear. In this paper, we conduct a
comprehensive analysis across 19 distinct datasets and tasks. To understand the
``when" aspect, we identify the scenarios where VPT proves favorable by two
dimensions: task objectives and data distributions. We find that VPT is
preferrable when there is 1) a substantial disparity between the original and
the downstream task objectives (e.g., transitioning from classification to
counting), or 2) a similarity in data distributions between the two tasks
(e.g., both involve natural images). In exploring the ``why" dimension, our
results indicate VPT's success cannot be attributed solely to overfitting and
optimization considerations. The unique way VPT preserves original features and
adds parameters appears to be a pivotal factor. Our study provides insights
into VPT's mechanisms, and offers guidance for its optimal utilization.
- Abstract(参考訳): 視覚モデルの規模が拡大するにつれて、パラメータ効率のよい伝達学習技術としての視覚プロンプトチューニング(VPT)の出現は、従来のフルファインタニングに比べて優れた性能で注目されている。
しかし、VPT(『when』)と根本的根拠(『why』)を支持する条件はいまだ不明である。
本稿では,19の異なるデータセットとタスクにまたがって包括的な分析を行う。
の側面を理解するために、我々はVPTが2つの次元(タスク目標とデータ分散)で有利であることを示すシナリオを特定します。
私たちは、VPTが好ましいことを発見した。
1)原案と下流課題目標(例えば、分類から数え方への遷移)の実質的な相違
2) 2つのタスク間のデータ分布の類似性(例えば、どちらも自然画像を含む)。
この「なぜ」次元の探索において、我々はVPTの成功は過度な適合と最適化の考慮だけでは説明できないことを示した。
vptがオリジナルの機能を保存し、パラメータを追加するユニークな方法は、重要な要因のようだ。
本稿ではVPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
関連論文リスト
- How to Benchmark Vision Foundation Models for Semantic Segmentation? [1.8570591025615457]
本稿では,視覚基盤モデル(VFM)をセマンティックセグメンテーションのためにベンチマークする方法について検討する。
様々なVFMを様々な設定で微調整し、個々の設定がパフォーマンスランキングとトレーニング時間に与える影響を評価する。
データセットとドメインシフト間でのパフォーマンスランキングが異なるため、トレーニングと評価に複数のデータセットを使用することも推奨されている。
論文 参考訳(メタデータ) (2024-04-18T13:27:29Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Towards a Unified View on Visual Parameter-Efficient Transfer Learning [96.99924127527002]
本稿では,視覚PETL(visual-PETL)と呼ばれる統一的な視点を持つフレームワークを提案し,トレードオフに影響を与えるさまざまな側面について検討する。
提案したV-PETLフレームワークから派生したSwin-BAPATは、最先端のAdaptFormer-Swinよりも大幅に性能が向上する。
論文 参考訳(メタデータ) (2022-10-03T09:54:39Z) - Declaration-based Prompt Tuning for Visual Question Answering [16.688288454811016]
本稿では,DPT(Declaation-based Prompt Tuning)と呼ばれる,革新的なビジュアル言語(VL)ファインチューニングパラダイムを提案する。
DPTは、VQAモデルの事前学習と微調整の目的を共同で最適化し、事前学習されたVLモデルの下流タスクへの効果的な適応を促進する。
GQAデータセットの実験結果によると、DPTは完全な教師付き(2.68%)とゼロショット/フェーショット(31%以上)の両方で精度に大きな差で微調整されたデータセットよりも優れていた。
論文 参考訳(メタデータ) (2022-05-05T05:56:55Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。