論文の概要: FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs
- arxiv url: http://arxiv.org/abs/2403.15593v2
- Date: Thu, 16 May 2024 20:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-20 18:12:19.457482
- Title: FairerCLIP: Debiasing CLIP's Zero-Shot Predictions using Functions in RKHSs
- Title(参考訳): FairerCLIP: RKHSの関数を用いたCLIPのゼロショット予測の回避
- Authors: Sepehr Dehdashtian, Lan Wang, Vishnu Naresh Boddeti,
- Abstract要約: 本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
ヒルベルト核空間(RKHS)の再生において,CLIPのイメージとテキスト表現を両立させる問題を定式化する。
- 参考スコア(独自算出の注目度): 24.991684983495542
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained vision-language models such as CLIP provide compact and general-purpose representations of text and images that are demonstrably effective across multiple downstream zero-shot prediction tasks. However, owing to the nature of their training process, these models have the potential to 1) propagate or amplify societal biases in the training data and 2) learn to rely on spurious features. This paper proposes FairerCLIP, a general approach for making zero-shot predictions of CLIP more fair and robust to spurious correlations. We formulate the problem of jointly debiasing CLIP's image and text representations in reproducing kernel Hilbert spaces (RKHSs), which affords multiple benefits: 1) Flexibility: Unlike existing approaches, which are specialized to either learn with or without ground-truth labels, FairerCLIP is adaptable to learning in both scenarios. 2) Ease of Optimization: FairerCLIP lends itself to an iterative optimization involving closed-form solvers, which leads to $4\times$-$10\times$ faster training than the existing methods. 3) Sample Efficiency: Under sample-limited conditions, FairerCLIP significantly outperforms baselines when they fail entirely. And, 4) Performance: Empirically, FairerCLIP achieves appreciable accuracy gains on benchmark fairness and spurious correlation datasets over their respective baselines.
- Abstract(参考訳): CLIPのような大規模な事前学習された視覚言語モデルは、複数の下流のゼロショット予測タスクにおいて明らかに有効であるテキストと画像のコンパクトで汎用的な表現を提供する。
しかし、トレーニングプロセスの性質から、これらのモデルには潜在的な可能性がある。
1)トレーニングデータにおける社会的偏見の伝播又は増幅
2)突発的な機能に頼ることを学ぶ。
本稿では,CLIPのゼロショット予測をより公平かつ堅牢に行うための一般手法であるFairerCLIPを提案する。
私たちは、カーネルヒルベルト空間(RKHS)の再現において、CLIPのイメージとテキスト表現を両立させる問題を定式化します。
1) 柔軟性:既存のアプローチとは異なり、FairerCLIPは両方のシナリオで学習できる。
2) 最適化の容易さ: FairerCLIP は閉形式ソルバを含む反復的な最適化を実現し,既存の方法よりも高速なトレーニングを実現する。
3) サンプル効率: サンプル制限条件下では、FairerCLIPは、完全に失敗するとベースラインを著しく上回る。
そして
4) 性能: 実証的には,FairerCLIPは,ベンチマークの公正性と,各ベースラインに対するスプリアス相関データセットの精度向上を実現している。
関連論文リスト
- FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。
CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。
これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文 参考訳(メタデータ) (2024-11-26T14:12:14Z) - Self-Calibrated CLIP for Training-Free Open-Vocabulary Segmentation [19.749490092520006]
Self-Calibrated CLIP (SC-CLIP) は、CLIPを校正してより微細な言語表現を生成する訓練不要の手法である。
SC-CLIPはバニラCLIP ViT-L/14の性能を6.8倍向上させる。
論文 参考訳(メタデータ) (2024-11-24T15:14:05Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - CLIP Itself is a Strong Fine-tuner: Achieving 85.7% and 88.0% Top-1
Accuracy with ViT-B and ViT-L on ImageNet [139.56863124214905]
CLIPの微調整性能はかなり過小評価されている。
具体的には、CLIP ViT-Base/16とCLIP ViT-Large/14は、ImageNet-1KデータセットのTop-1精度を85.7%、88.0%微調整することができる。
論文 参考訳(メタデータ) (2022-12-12T18:59:59Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - CLIP-TD: CLIP Targeted Distillation for Vision-Language Tasks [85.37552507367175]
対照的に、CLIP (Contrastive Language-image Pretraining) は、視覚と言語モダリティを統合埋め込み空間にリンクする。
本稿では,CLIP-TD (CLIP Targeted Distillation) という手法を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。