論文の概要: M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios
- arxiv url: http://arxiv.org/abs/2303.05122v2
- Date: Wed, 20 Dec 2023 01:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 22:24:00.577541
- Title: M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios
- Title(参考訳): M-Tuning: オープンセットシナリオでラベルバイアスを緩和したプロンプトチューニング
- Authors: Ning Liao, Xiaopeng Zhang, Min Cao, Junchi Yan, Qi Tian
- Abstract要約: 緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
- 参考スコア(独自算出の注目度): 103.6153593636399
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In realistic open-set scenarios where labels of a part of testing data are
totally unknown, when vision-language (VL) prompt learning methods encounter
inputs related to unknown classes (i.e., not seen during training), they always
predict them as one of the training classes. The exhibited label bias causes
difficulty in open set recognition (OSR), in which an image should be correctly
predicted as one of the known classes or the unknown one. To achieve this goal,
we propose a vision-language prompt tuning method with mitigated label bias
(M-Tuning). It introduces open words from the WordNet to extend the range of
words forming the prompt texts from only closed-set label words to more, and
thus prompts are tuned in a simulated open-set scenario. Besides, inspired by
the observation that classifying directly on large datasets causes a much
higher false positive rate than on small datasets, we propose a Combinatorial
Tuning and Testing (CTT) strategy for improving performance. CTT decomposes
M-Tuning on large datasets as multiple independent group-wise tuning on fewer
classes, then makes accurate and comprehensive predictions by selecting the
optimal sub-prompt. Finally, given the lack of VL-based OSR baselines in the
literature, especially for prompt methods, we contribute new baselines for fair
comparisons. Our method achieves the best performance on datasets with various
scales, and extensive ablation studies also validate its effectiveness.
- Abstract(参考訳): テストデータの一部のラベルが完全に未知である現実的なオープンセットのシナリオでは、視覚言語(VL)が未知のクラス(訓練中は見られない)に関連する入力に遭遇する学習メソッドを、常にトレーニングクラスの1つとして予測する。
表示されたラベルバイアスは、画像が既知のクラスまたは未知のクラスの1つとして正しく予測されるべきであるオープンセット認識(OSR)において困難を引き起こす。
この目的を達成するために,ラベルバイアス(mチューニング)を軽減した視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
さらに,大規模なデータセットを直接分類することで,小さなデータセットよりもはるかに偽陽性率が高いという観察にインスピレーションを得て,パフォーマンス向上のための Combinatorial Tuning and Testing(CTT)戦略を提案する。
CTTは、大規模データセット上のM-Tuningを、より少ないクラスの複数の独立したグループワイドチューニングとして分解し、最適なサブプロンプトを選択することで正確で包括的な予測を行う。
最後に、文献におけるvlベースのosrベースラインの欠如、特にプロンプトメソッドについては、公平な比較のために新しいベースラインを提供する。
本手法は,様々なスケールのデータセット上で最高の性能を達成し,その有効性も検証した。
関連論文リスト
- Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。
本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。
提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文 参考訳(メタデータ) (2024-08-29T12:34:01Z) - In-context Prompt Learning for Test-time Vision Recognition with Frozen Vision-language Model [13.983810804606264]
In-Context Prompt Learning (InCPL) を提案する。
InCPLは、コンテキスト情報としてラベル付き例がほとんどない新しいテストサンプルを関連付けている。
テストサンプルに適した視覚的プロンプトを最適化するために、コンテキスト対応の教師なし損失を導入する。
論文 参考訳(メタデータ) (2024-03-10T08:15:51Z) - Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。
この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。
11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-09-06T23:49:11Z) - Contextual Biasing of Named-Entities with Large Language Models [12.396054621526643]
本稿では,Large Language Models (LLM) を用いた文脈バイアスについて検討する。
LLMに追加のコンテキスト情報を提供して、自動音声認識(ASR)性能を向上する。
本稿では, バイアスリストと少数ショット例を組み込んだ再描画時に, 微調整を行なわずに, LLMのプロンプトを活用することを提案する。
論文 参考訳(メタデータ) (2023-09-01T20:15:48Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization [101.08992036691673]
本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。
特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。