Fugu-MT 論文翻訳(概要): Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

論文の概要: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models

arxiv url: http://arxiv.org/abs/2209.07511v1
Date: Thu, 15 Sep 2022 17:55:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-16 13:04:42.007107
Title: Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language Models
Title（参考訳）: 視覚言語モデルにおけるゼロショット一般化のためのテスト時間プロンプトチューニング
Authors: Manli Shu, Weili Nie, De-An Huang, Zhiding Yu, Tom Goldstein, Anima Anandkumar, Chaowei Xiao
Abstract要約: テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。 TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
参考スコア（独自算出の注目度）: 107.05966685291067
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained vision-language models (e.g., CLIP) have shown promising zero-shot generalization in many downstream tasks with properly designed text prompts. Instead of relying on hand-engineered prompts, recent works learn prompts using the training data from downstream tasks. While effective, training on domain-specific data reduces a model's generalization capability to unseen new domains. In this work, we propose test-time prompt tuning (TPT), a method that can learn adaptive prompts on the fly with a single test sample. For image classification, TPT optimizes the prompt by minimizing the entropy with confidence selection so that the model has consistent predictions across different augmented views of each test sample. In evaluating generalization to natural distribution shifts, TPT improves the zero-shot top-1 accuracy of CLIP by 3.6% on average, surpassing previous prompt tuning approaches that require additional task-specific training data. In evaluating cross-dataset generalization with unseen categories, TPT performs on par with the state-of-the-art approaches that use additional training data. Project page: https://azshue.github.io/TPT.
Abstract（参考訳）: 事前訓練された視覚言語モデル(例えばクリップ)は、適切に設計されたテキストプロンプトを持つ多くの下流タスクで有望なゼロショット一般化を示している。手書きのプロンプトに頼る代わりに、最近の研究は下流のタスクからトレーニングデータを使ってプロンプトを学ぶ。有効ではあるが、ドメイン固有のデータに対するトレーニングは、モデルの一般化能力を新しいドメインに還元する。本研究では,1つのテストサンプルで適応型プロンプトを学習できるtpt(test-time prompt tuning)を提案する。画像分類において、PTはエントロピーを信頼性選択で最小化し、各テストサンプルの異なる拡張ビューに対して一貫した予測を行う。自然分布シフトへの一般化を評価する際、TPTはCLIPのゼロショットトップ-1精度を平均3.6%改善し、タスク固有のトレーニングデータを必要とする以前のプロンプトチューニングアプローチを上回った。クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。プロジェクトページ: https://azshue.github.io/TPT。

関連論文リスト

Test-time Loss Landscape Adaptation for Zero-Shot Generalization in Vision-Language Models [3.1099372412393524]
本稿では,ロスランドスケープの観点から,既存の手法におけるバックプロパゲーションの不要な性質を明らかにする。テストタイムロスランドスケープ適応(TLLA)と呼ばれるシンプルだが効果的なフレームワークを提案する。即時チューニングの段階では、最小限のトレーニングを識別するために、シャープネス・アウェア・プロンプト・チューニング(SAPT)法が導入された。テスト段階では、平らなミニマのアライメントを確保するためにシャープネスに基づくテストサンプル選択(STSS)アプローチが使用される。
論文参考訳（メタデータ） (2025-01-31T03:10:48Z)
BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文参考訳（メタデータ） (2024-10-20T15:58:43Z)
Test-Time Low Rank Adaptation via Confidence Maximization for Zero-Shot Generalization of Vision-Language Models [4.655740975414312]
本稿では,大規模視覚言語モデル(VLM)のゼロショット一般化のための高速チューニングの代替として,テスト時間低ランク適応(TTL)を提案する。 TTLは、予測信頼度を最大化することにより、変圧器の注意重みを更新するテスト時間効率適応手法を提供する。
論文参考訳（メタデータ） (2024-07-22T17:59:19Z)
Align Your Prompts: Test-Time Prompting with Distribution Alignment for Zero-Shot Generalization [64.62570402941387]
テスト領域のギャップを埋めるために、機能分散シフトを最小限にして、テスト時にマルチモーダルプロンプトを適用するために、単一のテストサンプルを使用します。提案手法は,既存のプロンプト学習技術以上のゼロショットトップ1精度を向上し,ベースラインのMaPLeよりも3.08%向上した。
論文参考訳（メタデータ） (2023-11-02T17:59:32Z)
Diverse Data Augmentation with Diffusions for Effective Test-time Prompt Tuning [73.75282761503581]
DiffTPTを提案する。DiffTPTは,事前学習した拡散モデルを用いて,多種多様な情報データを生成する。 DiffTPTがゼロショット精度を平均5.13%向上することを示す。
論文参考訳（メタデータ） (2023-08-11T09:36:31Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
Pre-training Is (Almost) All You Need: An Application to Commonsense Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文参考訳（メタデータ） (2020-04-29T10:54:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。