論文の概要: SegDebias: Test-Time Bias Mitigation for ViT-Based CLIP via Segmentation
- arxiv url: http://arxiv.org/abs/2511.00523v1
- Date: Sat, 01 Nov 2025 11:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.822062
- Title: SegDebias: Test-Time Bias Mitigation for ViT-Based CLIP via Segmentation
- Title(参考訳): SegDebias: ViTベースのCLIPのセグメンテーションによるテストタイムバイアス軽減
- Authors: Fangyu Wu, Yujun Cai,
- Abstract要約: 本稿では,ViTベースのCLIPモデルに対して,追加のトレーニングやバイアスアノテーションの仮定を必要としないテスト時デバイアス手法を提案する。
提案手法では,対象の視覚属性を抽出するために事前訓練されたセグメンテーションモデルを用いて,非対象領域を調整し,その埋め込みがすべてのクラス固有のテキストプロンプトと均一に類似するようにする。
WaterbirdsとCelebAの実験により、我々の手法は、グループロバストネスメトリクスと注意IoUの両方において、既存のテスト時間偏りのアプローチよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 23.565073829744676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision language models such as CLIP have shown remarkable performance in zero shot classification, but remain susceptible to spurious correlations, where irrelevant visual features influence predictions. Existing debiasing methods often require access to training data and explicit group labels to perform fine-tuning or adjust embeddings, which limits their practicality in real-world settings. Test-time methods attempt to avoid this constraint, but many still depend on prior knowledge of dataset specific biases, limiting their generalizability in open set settings. In this work, we propose a test-time debiasing method for ViT based CLIP models that requires no additional training or assumptions of bias annotations. Our approach uses a pretrained segmentation model to isolate the target visual attribute, then adjusts the non target regions so that their embeddings are uniformly similar to all class specific text prompts. This procedure removes unintended bias signals from confounding visual regions while preserving the target attribute. Experiments on Waterbirds and CelebA show that our method outperforms existing test-time debiasing approaches in both group robustness metrics and Attention IoU. These results demonstrate the effectiveness of segmentation guided interventions for scalable and annotation free bias mitigation in vision language models.
- Abstract(参考訳): CLIPのような視覚言語モデルは、ゼロショット分類において顕著な性能を示しているが、無関係な視覚的特徴が予測に影響を及ぼすような、刺激的な相関の影響を受けやすいままである。
既存のデバイアス法は、実世界の環境での実践性を制限した微調整や調整を行うために、トレーニングデータや明示的なグループラベルへのアクセスを必要とすることが多い。
テストタイムメソッドはこの制約を回避しようとするが、多くはデータセット固有のバイアスに関する事前の知識に依存しており、オープンセット設定での一般化性を制限する。
本研究では,ViTベースのCLIPモデルに対して,バイアスアノテーションの付加的なトレーニングや仮定を必要としないテスト時デバイアス手法を提案する。
提案手法では,対象の視覚属性を抽出するために事前訓練されたセグメンテーションモデルを用いて,非対象領域を調整し,その埋め込みがすべてのクラス固有のテキストプロンプトと均一に類似するようにする。
この手順では、意図しないバイアス信号が、目標属性を保持しながら、視領域の凹凸から除去される。
WaterbirdsとCelebAの実験により、我々の手法は、グループロバストネス測定と注意IoUの両方において、既存のテスト時間偏りのアプローチよりも優れていることが示された。
これらの結果は、視覚言語モデルにおける拡張性およびアノテーションのないバイアス緩和のためのセグメンテーションガイドによる介入の有効性を示す。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Unlabeled Debiasing in Downstream Tasks via Class-wise Low Variance Regularization [13.773597081543185]
本稿では,組込みのクラスワイドな分散に基づく新しいデバイアス正規化手法を提案する。
提案手法は属性ラベルを必要とせず,属性をターゲットとせず,既存のデバイアス手法の欠点に対処する。
論文 参考訳(メタデータ) (2024-09-29T03:56:50Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [58.617025733655005]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。