論文の概要: Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning
- arxiv url: http://arxiv.org/abs/2408.16486v1
- Date: Thu, 29 Aug 2024 12:34:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-30 13:52:40.005492
- Title: Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning
- Title(参考訳): テスト時間プロンプトチューニングによる視覚言語モデルのオープンクラス適応
- Authors: Zhengqing Gao, Xiang Ao, Xu-Yao Zhang, Cheng-Lin Liu,
- Abstract要約: 学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
- 参考スコア(独自算出の注目度): 50.26965628047682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adapting pre-trained models to open classes is a challenging problem in machine learning. Vision-language models fully explore the knowledge of text modality, demonstrating strong zero-shot recognition performance, which is naturally suited for various open-set problems. More recently, some research focuses on fine-tuning such models to downstream tasks. Prompt tuning methods achieved huge improvements by learning context vectors on few-shot data. However, through the evaluation under open-set adaptation setting with the test data including new classes, we find that there exists a dilemma that learned prompts have worse generalization abilities than hand-crafted prompts. In this paper, we consider combining the advantages of both and come up with a test-time prompt tuning approach, which leverages the maximum concept matching (MCM) scores as dynamic weights to generate an input-conditioned prompt for each image during test. Through extensive experiments on 11 different datasets, we show that our proposed method outperforms all comparison methods on average considering both base and new classes. The code is available at https://github.com/gaozhengqing/TTPT
- Abstract(参考訳): 学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
視覚言語モデルはテキストモダリティの知識を十分に探求し、様々なオープンセット問題に自然に適合する強力なゼロショット認識性能を示す。
最近では、そのようなモデルを下流タスクに微調整することに焦点を当てている研究もある。
プロンプトチューニング手法は、数ショットデータ上でコンテキストベクトルを学習することで、大幅な改善を実現した。
しかし、新しいクラスを含むテストデータを用いたオープンセット適応設定による評価により、学習プロンプトが手作りプロンプトよりもより悪い一般化能力を持つジレンマが存在することがわかった。
本稿では,両者の利点を組み合わせて,最大概念マッチング(MCM)スコアを動的重みとして活用し,テスト中の各画像に対して入力条件付きプロンプトを生成するテスト時プロンプトチューニング手法を提案する。
提案手法は,11種類のデータセットに対する広範な実験により,基本クラスと新クラスの両方を考慮した平均比較法よりも優れた性能を示した。
コードはhttps://github.com/gaozhengqing/TTPTで公開されている。
関連論文リスト
- Conditional Prototype Rectification Prompt Learning [32.533844163120875]
本稿では, 基本事例のバイアスを補正し, 限られたデータを効果的に拡張するための, CPR(Prototype Rectification Prompt Learning)手法を提案する。
CPRは、いくつかのショット分類とベース・ツー・ニューな一般化タスクの両方において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-04-15T15:43:52Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Retrieval-Enhanced Visual Prompt Learning for Few-shot Classification [9.843214426749764]
Retrieval-enhanced Prompt Learning (RePrompt)
本稿では,下流タスクから知識表現をキャッシュする検索機構を導入するRetrieval-enhanced Prompt Learning(RePrompt)を提案する。
RePromptがパフォーマンスを大幅に向上することを示すため,15のビジョンデータセットに対して,数ショット設定による11のダウンストリームタスクと4つのドメイン一般化ベンチマークを用いた実験を行った。
論文 参考訳(メタデータ) (2023-06-04T03:06:37Z) - RPLKG: Robust Prompt Learning with Knowledge Graph [11.893917358053004]
知識グラフ(RPLKG)を用いた頑健な学習手法を提案する。
知識グラフに基づいて,多種多様な解釈可能かつ有意義なプロンプトセットを自動設計する。
RPLKGはゼロショット学習に比べてパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-04-21T08:22:58Z) - Exploring Effective Factors for Improving Visual In-Context Learning [56.14208975380607]
In-Context Learning(ICL)は、いくつかのデモ(別名プロンプト)を通じて新しいタスクを理解し、モデルをチューニングせずに新しい入力を予測することである。
本稿では,視覚的文脈学習の推論性能に直接的な影響を及ぼす要因として,迅速な選択と迅速な融合があげられる。
視覚的インコンテキスト学習のためのシンプルなフレームワークプロンプトSelFを提案する。
論文 参考訳(メタデータ) (2023-04-10T17:59:04Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。