論文の概要: Visual Fourier Prompt Tuning
- arxiv url: http://arxiv.org/abs/2411.01327v2
- Date: Fri, 15 Nov 2024 22:18:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:47.801379
- Title: Visual Fourier Prompt Tuning
- Title(参考訳): Visual Fourier Prompt Tuning
- Authors: Runjia Zeng, Cheng Han, Qifan Wang, Chunshu Wu, Tong Geng, Lifu Huang, Ying Nian Wu, Dongfang Liu,
- Abstract要約: 本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 63.66866445034855
- License:
- Abstract: With the scale of vision Transformer-based models continuing to grow, finetuning these large-scale pretrained models for new tasks has become increasingly parameter-intensive. Visual prompt tuning is introduced as a parameter-efficient finetuning (PEFT) method to this trend. Despite its successes, a notable research challenge persists within almost all PEFT approaches: significant performance degradation is observed when there is a substantial disparity between the datasets applied in pretraining and finetuning phases. To address this challenge, we draw inspiration from human visual cognition, and propose the Visual Fourier Prompt Tuning (VFPT) method as a general and effective solution for adapting large-scale transformer-based models. Our approach innovatively incorporates the Fast Fourier Transform into prompt embeddings and harmoniously considers both spatial and frequency domain information. Apart from its inherent simplicity and intuitiveness, VFPT exhibits superior performance across all datasets, offering a general solution to dataset challenges, irrespective of data disparities. Empirical results demonstrate that our approach outperforms current state-of-the-art baselines on two benchmarks, with low parameter usage (e.g., 0.57% of model parameters on VTAB-1k) and notable performance enhancements (e.g., 73.20% of mean accuracy on VTAB-1k). Our code is avaliable at https://github.com/runtsang/VFPT.
- Abstract(参考訳): 視覚のスケールが拡大するにつれて、トランスフォーマーベースのモデルは新しいタスクのためにこれらの大規模な事前訓練されたモデルを微調整することがますますパラメータ集約化されてきている。
ビジュアルプロンプトチューニングはこの傾向に対してパラメータ効率ファインタニング(PEFT)法として導入されている。
その成功にもかかわらず、注目すべき研究課題はPEFTのアプローチのほとんどすべてに留まっている。事前トレーニングと微調整フェーズに適用されるデータセットの間に大きな差異がある場合には、大幅なパフォーマンス劣化が観察される。
この課題に対処するために、人間の視覚認知からインスピレーションを得て、大規模トランスフォーマーモデルに適用するための汎用的で効果的なソリューションとして、ビジュアルフーリエ・プロンプト・チューニング法(VFPT)を提案する。
我々の手法は、Fast Fourier Transformを即時埋め込みに取り入れ、空間領域情報と周波数領域情報の両方を調和的に検討する。
本質的に単純さと直感性とは別に、VFPTはすべてのデータセットで優れたパフォーマンスを示し、データの格差に関わらず、データセットの課題に対する一般的なソリューションを提供する。
実験の結果,VTAB-1kにおけるモデルパラメータの0.57%,VTAB-1kにおける平均精度の73.20%など,パラメータ使用率の低い2つのベンチマークにおいて,本手法が最先端のベースラインより優れていることが示された。
私たちのコードはhttps://github.com/runtsang/VFPTで無効です。
関連論文リスト
- CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - Dynamic Tuning Towards Parameter and Inference Efficiency for ViT Adaptation [67.13876021157887]
動的チューニング(DyT)は、ViT適応のためのパラメータと推論効率を改善するための新しいアプローチである。
DyTは既存のPEFT法に比べて性能が優れており、VTAB-1KベンチマークではFLOPの71%しか呼び出されていない。
論文 参考訳(メタデータ) (2024-03-18T14:05:52Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Hint-Aug: Drawing Hints from Foundation Vision Transformers Towards
Boosted Few-Shot Parameter-Efficient Tuning [22.0296008705388]
我々はHint-based Data Augmentation(Hint-Aug)というフレームワークを提案する。
事前訓練されたFViTの学習機能により、チューニングサンプルの過度に適合した部分を増強することにより、ファウンデーション・ビジョン・トランスフォーマー(FViT)を数ショットチューニングで強化することを目的としている。
5つのデータセットと3つのパラメータ効率のチューニング技術に関する大規模な実験とアブレーション研究は、ヒント・オーグの有効性を一貫して検証している。
論文 参考訳(メタデータ) (2023-04-25T02:22:01Z) - Visual Prompt Tuning [74.5309408185523]
本稿では,視覚における大規模トランスフォーマーモデルの完全微調整の代替として,視覚プロンプトチューニング(VPT)を提案する。
VPTは、モデルのバックボーンを凍結させながら、入力空間でトレーニング可能なパラメータの少量(モデルパラメータの1%未満)しか導入しない。
論文 参考訳(メタデータ) (2022-03-23T01:17:16Z) - CPT: Colorful Prompt Tuning for Pre-trained Vision-Language Models [101.5066760592534]
我々は、視覚言語モデル(VL-PTM)をチューニングするための新しいパラダイムであるCPT(Cross-modal Prompt Tuning)を提案する。
CPTは、画像とテキストにおける色に基づく共参照マーカーを用いて、視覚的な接点をブランクの補間問題に修正し、ギャップを最大に軽減する。
総合的な実験結果から、VL-PTMの調整は、細調整されたVL-PTMよりも大きなマージンで優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-09-24T08:07:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。