論文の概要: Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based
Disparities
- arxiv url: http://arxiv.org/abs/2301.11100v1
- Date: Thu, 26 Jan 2023 13:44:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-27 13:44:07.926990
- Title: Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based
Disparities
- Title(参考訳): ゼロショットタスクを実行する視覚言語モデルにおける性差
- Authors: Melissa Hall, Laura Gustafson, Aaron Adcock, Ishan Misra, Candace Ross
- Abstract要約: ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。
概念の集合にまたがって複数のデータセットを持つ異なる視覚言語モデルを評価する。
- 参考スコア(独自算出の注目度): 19.03751960721954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We explore the extent to which zero-shot vision-language models exhibit
gender bias for different vision tasks. Vision models traditionally required
task-specific labels for representing concepts, as well as finetuning;
zero-shot models like CLIP instead perform tasks with an open-vocabulary,
meaning they do not need a fixed set of labels, by using text embeddings to
represent concepts. With these capabilities in mind, we ask: Do vision-language
models exhibit gender bias when performing zero-shot image classification,
object detection and semantic segmentation? We evaluate different
vision-language models with multiple datasets across a set of concepts and find
(i) all models evaluated show distinct performance differences based on the
perceived gender of the person co-occurring with a given concept in the image
and that aggregating analyses over all concepts can mask these concerns; (ii)
model calibration (i.e. the relationship between accuracy and confidence) also
differs distinctly by perceived gender, even when evaluating on similar
representations of concepts; and (iii) these observed disparities align with
existing gender biases in word embeddings from language models. These findings
suggest that, while language greatly expands the capability of vision tasks, it
can also contribute to social biases in zero-shot vision settings. Furthermore,
biases can further propagate when foundational models like CLIP are used by
other models to enable zero-shot capabilities.
- Abstract(参考訳): ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。
ビジョンモデルは伝統的に概念を表現するためにタスク固有のラベルと微調整を必要としており、CLIPのようなゼロショットモデルは代わりにオープン語彙でタスクを実行する。
視覚言語モデルでは、ゼロショット画像分類、オブジェクト検出、セマンティックセグメンテーションを行う際、性別バイアスを生じるか?
概念セットにまたがる複数のデータセットを用いた視覚言語モデルの評価と発見
(i)評価された全てのモデルは、画像中の所定の概念と共起している人の知覚された性別に基づいて異なる性能の差異を示し、すべての概念に関する分析を集約することは、これらの懸念を隠蔽することができる。
(ii)モデルキャリブレーション(すなわち、正確性と自信の関係)は、概念の類似表現上で評価しても、知覚性によっても明確に異なる。
3)これらの差異は,言語モデルからの単語埋め込みにおける既存性バイアスと一致している。
これらの結果は、言語が視覚タスクの能力を大きく拡大する一方で、ゼロショット視覚設定における社会的バイアスにも寄与することを示唆している。
さらに、CLIPのような基礎モデルがゼロショット機能を実現するために他のモデルで使用されている場合、バイアスはさらに伝播する。
関連論文リスト
- When Does Perceptual Alignment Benefit Vision Representations? [76.32336818860965]
視覚モデル表現と人間の知覚的判断との整合がユーザビリティに与える影響について検討する。
モデルと知覚的判断を一致させることで、多くの下流タスクで元のバックボーンを改善する表現が得られることがわかった。
その結果,人間の知覚的知識に関する帰納バイアスを視覚モデルに注入することは,より良い表現に寄与することが示唆された。
論文 参考訳(メタデータ) (2024-10-14T17:59:58Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Perceptual Grouping in Contrastive Vision-Language Models [59.1542019031645]
画像内の物体の位置を視覚言語モデルで理解し,画像の視覚的関連部分をグループ化する方法について述べる。
本稿では,意味情報と空間情報の両方を一意に学習するモデルとして,最小限の修正を提案する。
論文 参考訳(メタデータ) (2022-10-18T17:01:35Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。