論文の概要: R-Tuning: Regularized Prompt Tuning in Open-Set Scenarios
- arxiv url: http://arxiv.org/abs/2303.05122v1
- Date: Thu, 9 Mar 2023 09:05:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-10 15:37:24.482740
- Title: R-Tuning: Regularized Prompt Tuning in Open-Set Scenarios
- Title(参考訳): R-Tuning: オープンセットシナリオにおける定期的なプロンプトチューニング
- Authors: Ning Liao, Xiaopeng Zhang, Min Cao, Qi Tian, Junchi Yan
- Abstract要約: 視覚言語(VL)モデルの現在のプロンプトメソッドは、常に下流のトレーニングクラスとして未知のクラスを予測する。
ラベルバイアスを軽減するために正規化プロンプトチューニング(R-Tuning)を提案する。
また,パフォーマンス向上のためのCTT( Combinatorial Tuning and Testing)戦略を提案する。
- 参考スコア(独自算出の注目度): 133.04617722510085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In realistic open-set scenarios where labels of a part of testing data are
totally unknown, current prompt methods on vision-language (VL) models always
predict the unknown classes as the downstream training classes. The exhibited
label bias causes difficulty in the open set recognition (OSR), by which an
image should be correctly predicted as one of the known classes or the unknown
one. To learn prompts in open-set scenarios, we propose the Regularized prompt
Tuning (R-Tuning) to mitigate the label bias. It introduces open words from the
WordNet to extend the range of words forming the prompt texts from only
closed-set label words to more. Thus, prompts are tuned in a simulated open-set
scenario. Besides, inspired by the observation that classifying directly on
large datasets causes a much higher false positive rate than on small datasets,
we propose the Combinatorial Tuning and Testing (CTT) strategy for improving
performance. CTT decomposes R-Tuning on large datasets as multiple independent
group-wise tuning on fewer classes, then makes comprehensive predictions by
selecting the optimal sub-prompt. For fair comparisons, we construct new
baselines for OSR based on VL models, especially for prompt methods. Our method
achieves the best results on datasets with various scales. Extensive ablation
studies validate the effectiveness of our method.
- Abstract(参考訳): テストデータの一部のラベルが完全に未知である現実的なオープンセットシナリオでは、現在の視覚言語(VL)モデルのプロンプトメソッドは常に下流のトレーニングクラスとして未知のクラスを予測する。
表示されたラベルバイアスは、画像が既知のクラスまたは未知のクラスの1つとして正しく予測されるべきであるオープンセット認識(OSR)において困難を引き起こす。
オープンセットシナリオにおけるプロンプトを学習するために、ラベルバイアスを軽減するために正規化プロンプトチューニング(R-Tuning)を提案する。
WordNetからのオープンワードを導入し、クローズドセットのラベルワードのみから、プロンプトテキストを形成する単語の範囲を広げる。
したがって、プロンプトはシミュレートされたオープンセットシナリオで調整される。
また,大規模データセットに直接分類することで,小さなデータセットよりも偽陽性率が高いという観測に触発され,性能向上のための組合せチューニング・テスト(ctt)戦略を提案する。
CTTは、大規模データセット上のR-Tuningを、より少ないクラスの複数の独立したグループワイドチューニングとして分解し、最適なサブプロンプトを選択することで包括的な予測を行う。
公平な比較のために、VLモデルに基づくOSRの新しいベースライン、特にプロンプトメソッドを構築する。
本手法は,様々なスケールのデータセット上で最高の結果を得る。
広範なアブレーション研究により,本手法の有効性が検証された。
関連論文リスト
- STENCIL: Submodular Mutual Information Based Weak Supervision for
Cold-Start Active Learning [2.1485350418225244]
STENCILは、クラス不均衡のコールドスタート設定において、一般的なアクティブな学習手法に対して、複数のテキスト分類データセットに対して10%-24%、レアクラスのF-1スコアを17%-40%の精度で改善する。
論文 参考訳(メタデータ) (2024-02-21T01:54:58Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Towards Realistic Unsupervised Fine-tuning with CLIP [108.45391206730402]
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - Unified Vision and Language Prompt Learning [86.1530128487077]
本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。
主要な発見は、テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方で、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えないことである。
両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:50:24Z) - Prompt-driven efficient Open-set Semi-supervised Learning [52.30303262499391]
オープンセット半教師付き学習(OSSL)は関心を集めており、未ラベルデータにのみOOD(Out-of-distribution)サンプルが組み込まれているというより実践的なシナリオを調査している。
我々はOpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-28T16:25:08Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。