論文の概要: Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning?
- arxiv url: http://arxiv.org/abs/2401.12902v1
- Date: Tue, 23 Jan 2024 16:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-24 15:12:17.484777
- Title: Facing the Elephant in the Room: Visual Prompt Tuning or Full
Finetuning?
- Title(参考訳): 部屋のエレファントに挑戦する:ビジュアル・プロンプト・チューニングかフル・ファインタニングか?
- Authors: Cheng Han, Qifan Wang, Yiming Cui, Wenguan Wang, Lifu Huang, Siyuan
Qi, Dongfang Liu
- Abstract要約: Visual Prompt Tuningはパラメータ効率のよいトランスファー学習技術である。
19の異なるデータセットとタスクを包括的に分析します。
本稿では,VPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 92.23438255540968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the scale of vision models continues to grow, the emergence of Visual
Prompt Tuning (VPT) as a parameter-efficient transfer learning technique has
gained attention due to its superior performance compared to traditional
full-finetuning. However, the conditions favoring VPT (the ``when") and the
underlying rationale (the ``why") remain unclear. In this paper, we conduct a
comprehensive analysis across 19 distinct datasets and tasks. To understand the
``when" aspect, we identify the scenarios where VPT proves favorable by two
dimensions: task objectives and data distributions. We find that VPT is
preferrable when there is 1) a substantial disparity between the original and
the downstream task objectives (e.g., transitioning from classification to
counting), or 2) a similarity in data distributions between the two tasks
(e.g., both involve natural images). In exploring the ``why" dimension, our
results indicate VPT's success cannot be attributed solely to overfitting and
optimization considerations. The unique way VPT preserves original features and
adds parameters appears to be a pivotal factor. Our study provides insights
into VPT's mechanisms, and offers guidance for its optimal utilization.
- Abstract(参考訳): 視覚モデルの規模が拡大するにつれて、パラメータ効率のよい伝達学習技術としての視覚プロンプトチューニング(VPT)の出現は、従来のフルファインタニングに比べて優れた性能で注目されている。
しかし、VPT(『when』)と根本的根拠(『why』)を支持する条件はいまだ不明である。
本稿では,19の異なるデータセットとタスクにまたがって包括的な分析を行う。
の側面を理解するために、我々はVPTが2つの次元(タスク目標とデータ分散)で有利であることを示すシナリオを特定します。
私たちは、VPTが好ましいことを発見した。
1)原案と下流課題目標(例えば、分類から数え方への遷移)の実質的な相違
2) 2つのタスク間のデータ分布の類似性(例えば、どちらも自然画像を含む)。
この「なぜ」次元の探索において、我々はVPTの成功は過度な適合と最適化の考慮だけでは説明できないことを示した。
vptがオリジナルの機能を保存し、パラメータを追加するユニークな方法は、重要な要因のようだ。
本稿ではVPTのメカニズムに関する知見を提供し,その最適利用のためのガイダンスを提供する。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - What Matters When Repurposing Diffusion Models for General Dense Perception Tasks? [49.84679952948808]
最近の研究は、高密度知覚タスクのためのT2I拡散モデルを簡単に調整することで有望な結果を示す。
拡散前処理における伝達効率と性能に影響を及ぼす重要な要因を徹底的に検討する。
我々の研究は、濃密な視覚認知タスクに特化した効果的な決定論的ワンステップ微調整パラダイムであるGenPerceptの開発において頂点に達した。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Denoising Vision Transformers [43.03068202384091]
本稿では、DVT(Denoising Vision Transformers)と呼ばれる2段階のDenoisingアプローチを提案する。
第1段階では、画像ごとのニューラルネットワークとの横断的な特徴整合を強制することにより、位置的アーティファクトによって汚染されたものからクリーンな特徴を分離する。
第2段階では、クリーンな特徴を生のViT出力から予測するために軽量なトランスフォーマーブロックを訓練し、クリーンな特徴の導出推定を監督として活用する。
論文 参考訳(メタデータ) (2024-01-05T18:59:52Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。