論文の概要: VPA: Fully Test-Time Visual Prompt Adaptation
- arxiv url: http://arxiv.org/abs/2309.15251v1
- Date: Tue, 26 Sep 2023 20:25:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 17:49:07.241306
- Title: VPA: Fully Test-Time Visual Prompt Adaptation
- Title(参考訳): VPA: フルテストタイムのビジュアルプロンプト適応
- Authors: Jiachen Sun, Mark Ibrahim, Melissa Hall, Ivan Evtimov, Z. Morley Mao,
Cristian Canton Ferrer, Caner Hazirbas
- Abstract要約: テスト時間適応による視覚的プロンプトを一般化する最初のフレームワークであるVisual Prompt Adaptation (VPA)を提案する。
VPAは少数の学習可能なトークンを導入し、完全なテスト時間とストレージ効率の適応を可能にする。
- 参考スコア(独自算出の注目度): 23.663901314480412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Textual prompt tuning has demonstrated significant performance improvements
in adapting natural language processing models to a variety of downstream tasks
by treating hand-engineered prompts as trainable parameters. Inspired by the
success of textual prompting, several studies have investigated the efficacy of
visual prompt tuning. In this work, we present Visual Prompt Adaptation (VPA),
the first framework that generalizes visual prompting with test-time
adaptation. VPA introduces a small number of learnable tokens, enabling fully
test-time and storage-efficient adaptation without necessitating source-domain
information. We examine our VPA design under diverse adaptation settings,
encompassing single-image, batched-image, and pseudo-label adaptation. We
evaluate VPA on multiple tasks, including out-of-distribution (OOD)
generalization, corruption robustness, and domain adaptation. Experimental
results reveal that VPA effectively enhances OOD generalization by 3.3% across
various models, surpassing previous test-time approaches. Furthermore, we show
that VPA improves corruption robustness by 6.5% compared to strong baselines.
Finally, we demonstrate that VPA also boosts domain adaptation performance by
relatively 5.2%. Our VPA also exhibits marked effectiveness in improving the
robustness of zero-shot recognition for vision-language models.
- Abstract(参考訳): テキストプロンプトチューニングは、手書きのプロンプトをトレーニング可能なパラメータとして扱うことにより、さまざまな下流タスクに自然言語処理モデルを適用することで、大幅なパフォーマンス向上を示す。
テキストプロンプトの成功に触発されたいくつかの研究は、視覚的プロンプトチューニングの有効性を調査した。
本稿では,テスト時間適応による視覚的プロンプトを一般化する最初のフレームワークであるVisual Prompt Adaptation (VPA)を紹介する。
VPAは少数の学習可能なトークンを導入し、ソースドメイン情報を必要とせずに完全なテスト時間とストレージ効率の適応を可能にする。
本稿では,VPA設計を,単一画像,バッチ画像,擬似ラベル適応を含む多様な適応条件下で検討する。
我々は、分散(ood)一般化、腐敗の堅牢性、ドメイン適応などを含む複数のタスクでvpaを評価する。
実験の結果、VPAはOODの一般化を様々なモデルで効果的に3.3%向上させ、従来のテストタイムのアプローチを上回った。
さらに, VPAは, 強いベースラインに比べて, 耐汚損性を6.5%向上させることを示した。
最後に、VPAはドメイン適応性能を比較的5.2%向上させることを示した。
VPAはまた、視覚言語モデルにおけるゼロショット認識の堅牢性向上に顕著な効果を示した。
関連論文リスト
- Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。
CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。
CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-27T11:07:19Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Benchmarking Robustness of Adaptation Methods on Pre-trained
Vision-Language Models [49.595973365500775]
マルチモーダルな汚職下では、4つの視覚言語データセットにまたがる11種類の広く使われている適応手法のロバスト性を評価する。
1)適応法は視覚的汚職よりもテキストの汚損に敏感である。
予測とは対照的に,適応データやパラメータの増大は強靭性を保証するものではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-03T11:05:04Z) - Convolutional Visual Prompt for Robust Visual Perception [21.37507356862966]
視覚モデルは、適応することなく、しばしばオフ・オブ・ディストリビューション(OOD)サンプルに対して脆弱である。
頑健な視覚知覚のためのラベルなしテスト時間適応のための畳み込み視覚プロンプトを導入する。
当社のアプローチは有効であり、複数の大規模モデルに対して最大5.87%の堅牢性向上を実現しています。
論文 参考訳(メタデータ) (2023-03-01T03:06:29Z) - VL-Adapter: Parameter-Efficient Transfer Learning for
Vision-and-Language Tasks [71.40656211497162]
近年、大規模なテキストコーパスで事前訓練された微調整言語モデルにより、視覚と言語(V&L)タスクが大幅に改善されている。
本稿では,VL-BARTやVL-T5などのV&Lモデルに対して,アダプタに基づくパラメータ効率変換学習手法を提案する。
提案手法は, モデル全体の微調整性能に適合することを示した。
論文 参考訳(メタデータ) (2021-12-13T17:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。