論文の概要: R-Tuning: Regularized Prompt Tuning in Open-Set Scenarios
- arxiv url: http://arxiv.org/abs/2303.05122v1
- Date: Thu, 9 Mar 2023 09:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:37:24.482740
- Title: R-Tuning: Regularized Prompt Tuning in Open-Set Scenarios
- Title(参考訳): R-Tuning: オープンセットシナリオにおける定期的なプロンプトチューニング
- Authors: Ning Liao, Xiaopeng Zhang, Min Cao, Qi Tian, Junchi Yan
- Abstract要約: 視覚言語(VL)モデルの現在のプロンプトメソッドは、常に下流のトレーニングクラスとして未知のクラスを予測する。
ラベルバイアスを軽減するために正規化プロンプトチューニング(R-Tuning)を提案する。
また,パフォーマンス向上のためのCTT( Combinatorial Tuning and Testing)戦略を提案する。
- 参考スコア(独自算出の注目度): 133.04617722510085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In realistic open-set scenarios where labels of a part of testing data are
totally unknown, current prompt methods on vision-language (VL) models always
predict the unknown classes as the downstream training classes. The exhibited
label bias causes difficulty in the open set recognition (OSR), by which an
image should be correctly predicted as one of the known classes or the unknown
one. To learn prompts in open-set scenarios, we propose the Regularized prompt
Tuning (R-Tuning) to mitigate the label bias. It introduces open words from the
WordNet to extend the range of words forming the prompt texts from only
closed-set label words to more. Thus, prompts are tuned in a simulated open-set
scenario. Besides, inspired by the observation that classifying directly on
large datasets causes a much higher false positive rate than on small datasets,
we propose the Combinatorial Tuning and Testing (CTT) strategy for improving
performance. CTT decomposes R-Tuning on large datasets as multiple independent
group-wise tuning on fewer classes, then makes comprehensive predictions by
selecting the optimal sub-prompt. For fair comparisons, we construct new
baselines for OSR based on VL models, especially for prompt methods. Our method
achieves the best results on datasets with various scales. Extensive ablation
studies validate the effectiveness of our method.
- Abstract(参考訳): テストデータの一部のラベルが完全に未知である現実的なオープンセットシナリオでは、現在の視覚言語(VL)モデルのプロンプトメソッドは常に下流のトレーニングクラスとして未知のクラスを予測する。
表示されたラベルバイアスは、画像が既知のクラスまたは未知のクラスの1つとして正しく予測されるべきであるオープンセット認識(OSR)において困難を引き起こす。
オープンセットシナリオにおけるプロンプトを学習するために、ラベルバイアスを軽減するために正規化プロンプトチューニング(R-Tuning)を提案する。
WordNetからのオープンワードを導入し、クローズドセットのラベルワードのみから、プロンプトテキストを形成する単語の範囲を広げる。
したがって、プロンプトはシミュレートされたオープンセットシナリオで調整される。
また,大規模データセットに直接分類することで,小さなデータセットよりも偽陽性率が高いという観測に触発され,性能向上のための組合せチューニング・テスト(ctt)戦略を提案する。
CTTは、大規模データセット上のR-Tuningを、より少ないクラスの複数の独立したグループワイドチューニングとして分解し、最適なサブプロンプトを選択することで包括的な予測を行う。
公平な比較のために、VLモデルに基づくOSRの新しいベースライン、特にプロンプトメソッドを構築する。
本手法は,様々なスケールのデータセット上で最高の結果を得る。
広範なアブレーション研究により,本手法の有効性が検証された。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。