論文の概要: DeAR: Debiasing Vision-Language Models with Additive Residuals
- arxiv url: http://arxiv.org/abs/2303.10431v1
- Date: Sat, 18 Mar 2023 14:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 19:16:42.899603
- Title: DeAR: Debiasing Vision-Language Models with Additive Residuals
- Title(参考訳): DeAR: 付加的な残像を持つ視覚言語モデル
- Authors: Ashish Seth, Mayur Hemani, Chirag Agarwal
- Abstract要約: 大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
- 参考スコア(独自算出の注目度): 5.672132510411465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large pre-trained vision-language models (VLMs) reduce the time for
developing predictive models for various vision-grounded language downstream
tasks by providing rich, adaptable image and text representations. However,
these models suffer from societal biases owing to the skewed distribution of
various identity groups in the training data. These biases manifest as the
skewed similarity between the representations for specific text concepts and
images of people of different identity groups and, therefore, limit the
usefulness of such models in real-world high-stakes applications. In this work,
we present DeAR (Debiasing with Additive Residuals), a novel debiasing method
that learns additive residual image representations to offset the original
representations, ensuring fair output representations. In doing so, it reduces
the ability of the representations to distinguish between the different
identity groups. Further, we observe that the current fairness tests are
performed on limited face image datasets that fail to indicate why a specific
text concept should/should not apply to them. To bridge this gap and better
evaluate DeAR, we introduce the Protected Attribute Tag Association (PATA)
dataset - a new context-based bias benchmarking dataset for evaluating the
fairness of large pre-trained VLMs. Additionally, PATA provides visual context
for a diverse human population in different scenarios with both positive and
negative connotations. Experimental results for fairness and zero-shot
performance preservation using multiple datasets demonstrate the efficacy of
our framework.
- Abstract(参考訳): 大規模な事前学習型視覚言語モデル (VLM) は、リッチで適応可能な画像およびテキスト表現を提供することで、様々な視覚基底言語下流タスクの予測モデルを開発する時間を短縮する。
しかし、これらのモデルは、トレーニングデータ中の様々なアイデンティティ群の歪んだ分布に起因する社会的バイアスに悩まされる。
これらのバイアスは、特定のテキスト概念の表現と異なるアイデンティティグループの人々のイメージとの歪んだ類似性として現れ、したがって、現実世界のハイテイクアプリケーションにおけるそのようなモデルの有用性を制限する。
本稿では,原表現をオフセットする付加的残像表現を学習し,公平な出力表現を保証する新しいデバイアス法であるDeARを提案する。
そうすることで、表現が異なるアイデンティティグループを区別する能力を減らすことができる。
さらに,特定のテキスト概念を適用すべきでない/適用すべきでない理由を示さない限られた顔画像データセット上で,現在の公平性テストが行われることを観察した。
このギャップを埋めて、DeARをよりよく評価するために、大規模なトレーニング済みVLMの公平性を評価するためのコンテキストベースの新しいバイアスベンチマークデータセットであるProtected Attribute Tag Association (PATA)データセットを紹介します。
さらに、PATAは、ポジティブな意味とネガティブな意味の両方の異なるシナリオにおいて、多様な人間の集団に対する視覚的コンテキストを提供する。
複数のデータセットを用いた公平性とゼロショット性能の保存に関する実験結果は,このフレームワークの有効性を示している。
関連論文リスト
- Debiasing Vison-Language Models with Text-Only Training [15.069736314663352]
視覚バイアスを軽減するために,テキスト・アズ・イメージ・トレーニング・パラダイムを活用するTODというテキスト・オン・デバイアス・フレームワークを提案する。
そこで本研究では,テキスト・アズ・イメージ・トレーニングのパラダイムを活用し,視覚バイアスを緩和するテキスト・オン・デバイアス化フレームワークTODを提案する。
論文 参考訳(メタデータ) (2024-10-12T04:34:46Z) - Distilling Vision-Language Foundation Models: A Data-Free Approach via Prompt Diversification [49.41632476658246]
我々は、数十億レベルの画像テキストデータセットにアクセスすることなく、DFKDをVision-Language Foundation Modelsに拡張することについて議論する。
目的は,配当に依存しないダウンストリームタスクに対して,与えられたカテゴリ概念を学生モデルにカスタマイズすることである。
本稿では,多様なスタイルで画像合成を促進するために,3つの新しいプロンプト分岐法を提案する。
論文 参考訳(メタデータ) (2024-07-21T13:26:30Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Leveraging Diffusion Perturbations for Measuring Fairness in Computer
Vision [25.414154497482162]
拡散モデルを利用してそのようなデータセットを作成できることを実証する。
マルチクラスの職業分類タスクにおいて,複数の視覚言語モデルをベンチマークする。
非コーカサスラベルで生成された画像は、コーカサスラベルで生成された画像よりも、職業的誤分類率が高いことが判明した。
論文 参考訳(メタデータ) (2023-11-25T19:40:13Z) - Evaluating the Fairness of Discriminative Foundation Models in Computer
Vision [51.176061115977774]
本稿では,CLIP (Contrastive Language-Pretraining) などの差別基盤モデルのバイアス評価のための新しい分類法を提案する。
そして、これらのモデルにおけるバイアスを緩和するための既存の手法を分類学に関して体系的に評価する。
具体的には,ゼロショット分類,画像検索,画像キャプションなど,OpenAIのCLIPとOpenCLIPモデルをキーアプリケーションとして評価する。
論文 参考訳(メタデータ) (2023-10-18T10:32:39Z) - Discffusion: Discriminative Diffusion Models as Few-shot Vision and Language Learners [88.07317175639226]
本稿では,事前学習したテキストと画像の拡散モデルを数ショットの識別学習者に変換する新しい手法,DSDを提案する。
本手法は, 安定拡散モデルにおいて, 視覚情報とテキスト情報の相互影響を捉えるために, クロスアテンションスコアを用いている。
論文 参考訳(メタデータ) (2023-05-18T05:41:36Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Through a fair looking-glass: mitigating bias in image datasets [1.0323063834827415]
目的変数間の統計的依存を最小化し,画像データセットを非バイアス化するための高速かつ効果的なモデルを提案する。
提案手法をCelebAデータセット上で評価し、その結果を最先端のデバイアス法と比較し、そのモデルが有望なフェアネスと精度の組み合わせを達成することを示す。
論文 参考訳(メタデータ) (2022-09-18T20:28:36Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Visual Recognition with Deep Learning from Biased Image Datasets [6.10183951877597]
視覚認知の文脈において、バイアスモデルがどのように治療問題に適用できるかを示す。
作業中のバイアス機構に関する(近似的な)知識に基づいて、我々のアプローチは観察を再重み付けする。
本稿では,画像データベース間で共有される低次元画像表現を提案する。
論文 参考訳(メタデータ) (2021-09-06T10:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。