論文の概要: Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images
- arxiv url: http://arxiv.org/abs/2402.05779v1
- Date: Thu, 8 Feb 2024 16:11:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 14:13:31.318726
- Title: Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images
- Title(参考訳): 並列画像の新しいデータセットを用いた大規模視覚言語モデルにおける性別と人種バイアスの検討
- Authors: Kathleen C. Fraser and Svetlana Kiritchenko
- Abstract要約: EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
- 参考スコア(独自算出の注目度): 10.385717398477414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Following on recent advances in large language models (LLMs) and subsequent
chat models, a new wave of large vision-language models (LVLMs) has emerged.
Such models can incorporate images as input in addition to text, and perform
tasks such as visual question answering, image captioning, story generation,
etc. Here, we examine potential gender and racial biases in such systems, based
on the perceived characteristics of the people in the input images. To
accomplish this, we present a new dataset PAIRS (PArallel Images for eveRyday
Scenarios). The PAIRS dataset contains sets of AI-generated images of people,
such that the images are highly similar in terms of background and visual
content, but differ along the dimensions of gender (man, woman) and race
(Black, white). By querying the LVLMs with such images, we observe significant
differences in the responses according to the perceived gender or race of the
person depicted.
- Abstract(参考訳): 大型言語モデル(llms)とその後のチャットモデルの最近の進歩に続いて、新しい大きなビジョン言語モデル(lvlms)の波が現れた。
このようなモデルは、テキストに加えて入力としてイメージを組み込むことができ、視覚的な質問応答、画像キャプション、ストーリー生成などのタスクを実行することができる。
本稿では,入力画像中の人物の知覚的特徴に基づいて,このようなシステムの潜在的な性別や人種的偏見について検討する。
これを実現するために、新しいデータセット PAIRS (Parallel Images for eveRyday Scenarios) を提案する。
PAIRSデータセットには、背景と視覚的内容の点で非常に類似しているが、性別(男性、女性)と人種(黒人、白人)の寸法によって異なるような、AI生成された人々の画像が含まれている。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意差を観察する。
関連論文リスト
- Multilingual Text-to-Image Generation Magnifies Gender Stereotypes and Prompt Engineering May Not Help You [64.74707085021858]
多言語モデルは、モノリンガルモデルと同様に、有意な性別バイアスに悩まされていることを示す。
多言語モデルにおけるジェンダーバイアスの研究を促進するための新しいベンチマークMAGBIGを提案する。
以上の結果から,モデルが強い性バイアスを示すだけでなく,言語によって異なる行動を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-01-29T12:02:28Z) - Targeted Image Data Augmentation Increases Basic Skills Captioning
Robustness [0.932065750652415]
TIDA(Targeted Image-editing Data Augmentation)は、モデルの人間的な能力向上を目的としたデータ拡張手法である。
画像キャプションの指標において,性別,色,数量に関連するTIDA強化データセットが,より優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2023-09-27T20:12:41Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based
Disparities [19.03751960721954]
ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。
概念の集合にまたがって複数のデータセットを持つ異なる視覚言語モデルを評価する。
論文 参考訳(メタデータ) (2023-01-26T13:44:31Z) - How well can Text-to-Image Generative Models understand Ethical Natural
Language Interventions? [67.97752431429865]
倫理的介入を加える際の画像の多様性への影響について検討した。
予備研究は、モデル予測の大きな変化が「性別の無視」のような特定のフレーズによって引き起こされることを示している。
論文 参考訳(メタデータ) (2022-10-27T07:32:39Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。