論文の概要: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2209.07511v1
- Date: Thu, 15 Sep 2022 17:55:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 13:04:42.007107
- Title: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models
- Title(参考訳): 視覚言語モデルにおけるゼロショット一般化のためのテスト時間プロンプトチューニング
- Authors: Manli Shu, Weili Nie, De-An Huang, Zhiding Yu, Tom Goldstein, Anima
Anandkumar, Chaowei Xiao
- Abstract要約: テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
- 参考スコア(独自算出の注目度): 107.05966685291067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained vision-language models (e.g., CLIP) have shown promising
zero-shot generalization in many downstream tasks with properly designed text
prompts. Instead of relying on hand-engineered prompts, recent works learn
prompts using the training data from downstream tasks. While effective,
training on domain-specific data reduces a model's generalization capability to
unseen new domains. In this work, we propose test-time prompt tuning (TPT), a
method that can learn adaptive prompts on the fly with a single test sample.
For image classification, TPT optimizes the prompt by minimizing the entropy
with confidence selection so that the model has consistent predictions across
different augmented views of each test sample. In evaluating generalization to
natural distribution shifts, TPT improves the zero-shot top-1 accuracy of CLIP
by 3.6% on average, surpassing previous prompt tuning approaches that require
additional task-specific training data. In evaluating cross-dataset
generalization with unseen categories, TPT performs on par with the
state-of-the-art approaches that use additional training data. Project page:
https://azshue.github.io/TPT.
- Abstract(参考訳): 事前訓練された視覚言語モデル(例えばクリップ)は、適切に設計されたテキストプロンプトを持つ多くの下流タスクで有望なゼロショット一般化を示している。
手書きのプロンプトに頼る代わりに、最近の研究は下流のタスクからトレーニングデータを使ってプロンプトを学ぶ。
有効ではあるが、ドメイン固有のデータに対するトレーニングは、モデルの一般化能力を新しいドメインに還元する。
本研究では,1つのテストサンプルで適応型プロンプトを学習できるtpt(test-time prompt tuning)を提案する。
画像分類において、PTはエントロピーを信頼性選択で最小化し、各テストサンプルの異なる拡張ビューに対して一貫した予測を行う。
自然分布シフトへの一般化を評価する際、TPTはCLIPのゼロショットトップ-1精度を平均3.6%改善し、タスク固有のトレーニングデータを必要とする以前のプロンプトチューニングアプローチを上回った。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
プロジェクトページ: https://azshue.github.io/TPT。
関連論文リスト
- In-context Prompt Learning for Test-time Vision Recognition with Frozen
Vision-language Model [17.9086654601105]
In-Context Prompt Learning (In-Context Prompt Learning, InCPL) を提案する。
InCPLは、インコンテキストプロンプトとしてラベル付けされた1つの例で新しいテストサンプルを関連付ける。
提案手法は,様々な下流データセットにまたがって,優れた性能を示し,最先端の結果を得た。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Each Test Image Deserves A Specific Prompt: Continual Test-Time
Adaptation for 2D Medical Image Segmentation [15.791041311313448]
ドメイン間の分散シフトは、実世界のアプリケーションに事前訓練されたセマンティックセグメンテーションモデルをデプロイする上で重要な障害である。
テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。
本稿では,各テスト画像に対する特定のプロンプトをトレーニングし,バッチ正規化レイヤの統計値を調整するために,Visual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。
論文 参考訳(メタデータ) (2023-11-30T09:03:47Z) - Align Your Prompts: Test-Time Prompting with Distribution Alignment for
Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。
提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文 参考訳(メタデータ) (2023-11-02T17:59:32Z) - Diverse Data Augmentation with Diffusions for Effective Test-time Prompt
Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。
DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文 参考訳(メタデータ) (2023-08-11T09:36:31Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - A Comprehensive Survey on Test-Time Adaptation under Distribution Shifts [143.14128737978342]
新たなパラダイムであるテスト時適応は、事前トレーニングされたモデルをテスト中にラベルのないデータに適用し、予測を行う可能性がある。
このパラダイムの最近の進歩は、推論に先立って自己適応モデルのトレーニングにラベルのないデータを活用するという大きな利点を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-03-27T16:32:21Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。