論文の概要: Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting
- arxiv url: http://arxiv.org/abs/2410.19294v1
- Date: Fri, 25 Oct 2024 04:00:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:36:36.824671
- Title: Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting
- Title(参考訳): ラベルなしプロンプト分布学習とバイアス補正によるゼロショットビジョンモデルの強化
- Authors: Xingyu Zhu, Beier Zhu, Yi Tan, Shuo Wang, Yanbin Hao, Hanwang Zhang,
- Abstract要約: CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.361337202198925
- License:
- Abstract: Vision-language models, such as CLIP, have shown impressive generalization capacities when using appropriate text descriptions. While optimizing prompts on downstream labeled data has proven effective in improving performance, these methods entail labor costs for annotations and are limited by their quality. Additionally, since CLIP is pre-trained on highly imbalanced Web-scale data, it suffers from inherent label bias that leads to suboptimal performance. To tackle the above challenges, we propose a label-Free prompt distribution learning and bias correction framework, dubbed as **Frolic**, which boosts zero-shot performance without the need for labeled data. Specifically, our Frolic learns distributions over prompt prototypes to capture diverse visual representations and adaptively fuses these with the original CLIP through confidence matching. This fused model is further enhanced by correcting label bias via a label-free logit adjustment. Notably, our method is not only training-free but also circumvents the necessity for hyper-parameter tuning. Extensive experimental results across 16 datasets demonstrate the efficacy of our approach, particularly outperforming the state-of-the-art by an average of $2.6\%$ on 10 datasets with CLIP ViT-B/16 and achieving an average margin of $1.5\%$ on ImageNet and its five distribution shifts with CLIP ViT-B/16. Codes are available in https://github.com/zhuhsingyuu/Frolic.
- Abstract(参考訳): CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
下流ラベル付きデータ上でのプロンプトの最適化は、パフォーマンス向上に有効であることが証明されているが、これらの手法はアノテーションの労力コストを伴い、その品質に制限されている。
さらに、CLIPは高度に不均衡なWebスケールのデータで事前トレーニングされているため、固有のラベルバイアスに悩まされ、最適以下のパフォーマンスにつながる。
以上の課題に対処するため,ラベル付きデータを必要としないゼロショット性能を向上する**Frolic**と呼ばれるラベルフリープロンプト分布学習とバイアス補正フレームワークを提案する。
特に、Frolicはプロンプトプロトタイプよりも分布を学習し、多様な視覚表現をキャプチャし、信頼マッチングによって元のCLIPとそれらを適応的に融合する。
ラベルなしロジット調整によりラベルバイアスを補正することにより、この融合モデルをさらに強化する。
特に,本手法はトレーニング不要であるだけでなく,ハイパーパラメータチューニングの必要性を回避している。
特にCLIP ViT-B/16で10データセットに対して平均2.6\%、ImageNetで平均1.5\%、CLIP ViT-B/16で5つの分散シフトを達成している。
コードはhttps://github.com/zhuhsingyuu/Frolic.comで入手できる。
関連論文リスト
- Online Zero-Shot Classification with CLIP [9.099027915077698]
オンラインゼロショット転送のシナリオについて検討し、各画像がランダムな順序で分類され、1回だけ訪れて予測を得る。
バニラゼロショットの分類と比較すると、提案フレームワークはオンラインサービスに対する柔軟性を保っている。
オンラインゼロショット転送方式(OnZeta)は,データセット全体にアクセスすることなく,ImageNet上で78.94%の精度を実現する。
論文 参考訳(メタデータ) (2024-08-23T18:12:12Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - ReCLIP: Refine Contrastive Language Image Pre-Training with Source Free
Domain Adaptation [20.57370550156505]
ReCLIPは、ヴィジュアル言語モデルのための、ソースフリーなドメイン適応手法である。
ReCLIPは、22の画像分類ベンチマークにおいて、CLIPの平均エラー率を30.17%から25.06%に下げることを示した。
論文 参考訳(メタデータ) (2023-08-04T18:11:40Z) - Flexible Distribution Alignment: Towards Long-tailed Semi-supervised Learning with Proper Calibration [18.376601653387315]
Longtailed semi-supervised learning (LTSSL)は、半教師付きアプリケーションのための実践的なシナリオである。
この問題は、ラベル付きとラベルなしのクラス分布の相違によってしばしば悪化する。
本稿では,新しい適応ロジット調整型損失フレームワークFlexDAを紹介する。
論文 参考訳(メタデータ) (2023-06-07T17:50:59Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - FreeMatch: Self-adaptive Thresholding for Semi-supervised Learning [46.95063831057502]
本稿では,モデルの学習状況に応じて,信頼度閾値を自己適応的に定義・調整するためのemphFreeMatchを提案する。
FreeMatchは、最新の最先端メソッドであるFlexMatchよりもtextbf5.78%、textbf13.59%、textbf1.28%のエラー率削減を実現している。
論文 参考訳(メタデータ) (2022-05-15T10:07:52Z) - Class-Aware Contrastive Semi-Supervised Learning [51.205844705156046]
本研究では,擬似ラベル品質を向上し,実環境におけるモデルの堅牢性を高めるため,CCSSL(Class-Aware Contrastive Semi-Supervised Learning)と呼ばれる一般的な手法を提案する。
提案するCCSSLは,標準データセットCIFAR100とSTL10の最先端SSLメソッドに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-03-04T12:18:23Z) - Cross-Model Pseudo-Labeling for Semi-Supervised Action Recognition [98.25592165484737]
CMPL(Cross-Model Pseudo-Labeling)と呼ばれる,より効果的な擬似ラベル方式を提案する。
CMPLは、それぞれRGBモダリティとラベル付きデータのみを使用して、Kinetics-400とUCF-101のTop-1の精度を17.6%と25.1%で達成している。
論文 参考訳(メタデータ) (2021-12-17T18:59:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。