論文の概要: They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias
- arxiv url: http://arxiv.org/abs/2406.11331v1
- Date: Mon, 17 Jun 2024 08:42:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:41:08.138848
- Title: They're All Doctors: Synthesizing Diverse Counterfactuals to Mitigate Associative Bias
- Title(参考訳): 彼らはすべて医者だ: 多様なカウンターファクチャルを合成してアソシエーションバイアスを緩和する
- Authors: Salma Abdel Magid, Jui-Hsien Wang, Kushal Kafle, Hanspeter Pfister,
- Abstract要約: 本稿では,CLIPの微調整に使用できる合成反事実画像を生成するための新しいフレームワークを提案する。
精細調整されたCLIPモデルである$CF_alpha$は、画像検索タスクに対してMaxSkew、MinSkew、NDKLなどのキーフェアネス指標を40~66%改善することを示す。
- 参考スコア(独自算出の注目度): 34.005902280160356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision Language Models (VLMs) such as CLIP are powerful models; however they can exhibit unwanted biases, making them less safe when deployed directly in applications such as text-to-image, text-to-video retrievals, reverse search, or classification tasks. In this work, we propose a novel framework to generate synthetic counterfactual images to create a diverse and balanced dataset that can be used to fine-tune CLIP. Given a set of diverse synthetic base images from text-to-image models, we leverage off-the-shelf segmentation and inpainting models to place humans with diverse visual appearances in context. We show that CLIP trained on such datasets learns to disentangle the human appearance from the context of an image, i.e., what makes a doctor is not correlated to the person's visual appearance, like skin color or body type, but to the context, such as background, the attire they are wearing, or the objects they are holding. We demonstrate that our fine-tuned CLIP model, $CF_\alpha$, improves key fairness metrics such as MaxSkew, MinSkew, and NDKL by 40-66\% for image retrieval tasks, while still achieving similar levels of performance in downstream tasks. We show that, by design, our model retains maximal compatibility with the original CLIP models, and can be easily controlled to support different accuracy versus fairness trade-offs in a plug-n-play fashion.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)は強力なモデルであるが、望ましくないバイアスを示すことができるため、テキスト・ツー・イメージ、テキスト・ツー・ビデオ検索、リバース・サーチ、分類タスクなどのアプリケーションに直接デプロイした場合、安全性が低下する。
本稿では,CLIPの微調整に使用可能な,多種多様なバランスの取れたデータセットを作成するために,合成対物画像を生成する新しいフレームワークを提案する。
テキスト・ツー・イメージ・モデルからの多様な合成ベース・イメージのセットを考慮し、オフ・ザ・シェルフ・セグメンテーションとインペインティング・モデルを利用して、コンテキストに多様な視覚的外観を持つ人間を配置する。
このようなデータセットに基づいてトレーニングされたCLIPは、画像のコンテキスト、すなわち、医師が肌の色や体型といった人の視覚的外観に関係しないもの、背景、着ている服装、保持している物など、人間の外見を歪めることを学ぶ。
我々は、精巧なCLIPモデルである$CF_\alpha$が、画像検索タスクに対して、MaxSkew、MinSkew、NDKLといった重要なフェアネス指標を40-66\%改善し、ダウンストリームタスクでも同様のレベルのパフォーマンスを実現していることを示した。
設計上,我々のモデルはオリジナルのCLIPモデルとの最大互換性を維持しており,プラグn-play方式で異なる精度と公平性トレードオフをサポートするために容易に制御可能であることを示す。
関連論文リスト
- TripletCLIP: Improving Compositional Reasoning of CLIP via Synthetic Vision-Language Negatives [65.82577305915643]
Contrastive Language-Image Pretraining (CLIP) モデルは、表現を学ぶためにテキストと視覚的モダリティ間の相互情報を最大化する。
そこで本研究では,テキスト・ツー・イメージ・ジェネレータを用いて,文脈内学習による「ハード」の負の字幕生成と,それに対応する負のイメージ生成が解となることを示す。
提案手法はTripletCLIPと呼ばれ,CLIPの構成能力を向上し,SugarCrepeベンチマークでは9%以上向上した。
論文 参考訳(メタデータ) (2024-11-04T19:24:59Z) - See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。
本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文 参考訳(メタデータ) (2024-08-29T17:59:57Z) - Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - Scaling Laws of Synthetic Images for Model Training ... for Now [54.43596959598466]
本研究では, 合成画像のスケーリング法則について, テクスト・ツー・イメージ・モデルの現状から検討した。
合成画像は、CLIPトレーニングの実際の画像と似ているが、やや効果の低いスケーリング傾向を示す。
論文 参考訳(メタデータ) (2023-12-07T18:59:59Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。