論文の概要: DeAR: Debiasing Vision-Language Models with Additive Residuals
- arxiv url: http://arxiv.org/abs/2303.10431v1
- Date: Sat, 18 Mar 2023 14:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:16:42.899603
- Title: DeAR: Debiasing Vision-Language Models with Additive Residuals
- Title(参考訳): DeAR: 付加的な残像を持つ視覚言語モデル
- Authors: Ashish Seth, Mayur Hemani, Chirag Agarwal
- Abstract要約: 大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained vision-language models (VLMs) reduce the time for
developing predictive models for various vision-grounded language downstream
tasks by providing rich, adaptable image and text representations. However,
these models suffer from societal biases owing to the skewed distribution of
various identity groups in the training data. These biases manifest as the
skewed similarity between the representations for specific text concepts and
images of people of different identity groups and, therefore, limit the
usefulness of such models in real-world high-stakes applications. In this work,
we present DeAR (Debiasing with Additive Residuals), a novel debiasing method
that learns additive residual image representations to offset the original
representations, ensuring fair output representations. In doing so, it reduces
the ability of the representations to distinguish between the different
identity groups. Further, we observe that the current fairness tests are
performed on limited face image datasets that fail to indicate why a specific
text concept should/should not apply to them. To bridge this gap and better
evaluate DeAR, we introduce the Protected Attribute Tag Association (PATA)
dataset - a new context-based bias benchmarking dataset for evaluating the
fairness of large pre-trained VLMs. Additionally, PATA provides visual context
for a diverse human population in different scenarios with both positive and
negative connotations. Experimental results for fairness and zero-shot
performance preservation using multiple datasets demonstrate the efficacy of
our framework.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデル (VLM) は、リッチで適応可能な画像およびテキスト表現を提供することで、様々な視覚基底言語下流タスクの予測モデルを開発する時間を短縮する。
しかし、これらのモデルは、トレーニングデータ中の様々なアイデンティティ群の歪んだ分布に起因する社会的バイアスに悩まされる。
これらのバイアスは、特定のテキスト概念の表現と異なるアイデンティティグループの人々のイメージとの歪んだ類似性として現れ、したがって、現実世界のハイテイクアプリケーションにおけるそのようなモデルの有用性を制限する。
本稿では,原表現をオフセットする付加的残像表現を学習し,公平な出力表現を保証する新しいデバイアス法であるDeARを提案する。
そうすることで、表現が異なるアイデンティティグループを区別する能力を減らすことができる。
さらに,特定のテキスト概念を適用すべきでない/適用すべきでない理由を示さない限られた顔画像データセット上で,現在の公平性テストが行われることを観察した。
このギャップを埋めて、DeARをよりよく評価するために、大規模なトレーニング済みVLMの公平性を評価するためのコンテキストベースの新しいバイアスベンチマークデータセットであるProtected Attribute Tag Association (PATA)データセットを紹介します。
さらに、PATAは、ポジティブな意味とネガティブな意味の両方の異なるシナリオにおいて、多様な人間の集団に対する視覚的コンテキストを提供する。
複数のデータセットを用いた公平性とゼロショット性能の保存に関する実験結果は,このフレームワークの有効性を示している。
関連論文リスト
- Classes Are Not Equal: An Empirical Study on Image Recognition Fairness [100.36114135663836]
我々は,クラスが等しくないことを実験的に証明し,様々なデータセットにまたがる画像分類モデルにおいて,公平性の問題が顕著であることを示した。
以上の結果から,モデルでは認識が困難であるクラスに対して,予測バイアスが大きくなる傾向が示唆された。
データ拡張および表現学習アルゴリズムは、画像分類のある程度の公平性を促進することにより、全体的なパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-02-28T07:54:50Z) - Leveraging Diffusion Perturbations for Measuring Fairness in Computer
Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。
マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。
非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文 参考訳(メタデータ) (2023-11-25T19:40:13Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Discriminative Diffusion Models as Few-shot Vision and Language Learners [91.38524112662448]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Towards Reliable Assessments of Demographic Disparities in Multi-Label
Image Classifiers [11.973749734226852]
マルチラベル画像分類と,特に対象分類タスクについて検討する。
測定のための設計選択とトレードオフは、以前のコンピュータビジョン文学で議論されたよりもニュアンスが高い。
実装の詳細にだけ似ているが、評価の結論に大きな影響を及ぼすいくつかの設計選択を特定します。
論文 参考訳(メタデータ) (2023-02-16T20:34:54Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Through a fair looking-glass: mitigating bias in image datasets [1.0323063834827415]
目的変数間の統計的依存を最小化し,画像データセットを非バイアス化するための高速かつ効果的なモデルを提案する。
提案手法をCelebAデータセット上で評価し、その結果を最先端のデバイアス法と比較し、そのモデルが有望なフェアネスと精度の組み合わせを達成することを示す。
論文 参考訳(メタデータ) (2022-09-18T20:28:36Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Visual Recognition with Deep Learning from Biased Image Datasets [6.10183951877597]
視覚認知の文脈において、バイアスモデルがどのように治療問題に適用できるかを示す。
作業中のバイアス機構に関する(近似的な)知識に基づいて、我々のアプローチは観察を再重み付けする。
本稿では,画像データベース間で共有される低次元画像表現を提案する。
論文 参考訳(メタデータ) (2021-09-06T10:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。