論文の概要: A Unified Framework and Dataset for Assessing Gender Bias in
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2402.13636v1
- Date: Wed, 21 Feb 2024 09:17:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:06:26.313725
- Title: A Unified Framework and Dataset for Assessing Gender Bias in
Vision-Language Models
- Title(参考訳): 視覚言語モデルにおけるジェンダーバイアス評価のための統一フレームワークとデータセット
- Authors: Ashutosh Sathe, Prachi Jain, Sunayana Sitaram
- Abstract要約: 我々は、大きな視覚言語モデル(VLM)におけるジェンダー・プロの偏見を評価する統一的な枠組みを構築している。
テキストと画像の合成、高品質なデータセットを構築し、プロの行動にまたがる性別の区別を曖昧にし、性別バイアスをベンチマークする。
- 参考スコア(独自算出の注目度): 10.144272784552273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) are widely getting adopted in industry
and academia. In this work we build a unified framework to systematically
evaluate gender-profession bias in VLMs. Our evaluation encompasses all
supported inference modes of the recent VLMs, including image-to-text,
text-to-text, text-to-image, and image-to-image. We construct a synthetic,
high-quality dataset of text and images that blurs gender distinctions across
professional actions to benchmark gender bias. In our benchmarking of recent
vision-language models (VLMs), we observe that different input-output
modalities result in distinct bias magnitudes and directions. We hope our work
will help guide future progress in improving VLMs to learn socially unbiased
representations. We will release our data and code.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、産業やアカデミックで広く採用されている。
本研究では,VLMにおけるジェンダー・プロフェッションバイアスを体系的に評価する統一的な枠組みを構築する。
画像からテキストへの推論,テキストから画像への推論,画像から画像への推論など,最新のvlmでサポートされているすべての推論モードを包含する。
テキストと画像の合成、高品質なデータセットを構築し、プロの行動間で性別の区別を曖昧にし、性別バイアスをベンチマークする。
近年の視覚言語モデル (VLM) のベンチマークでは、異なる入力出力モードが異なるバイアスの大きさと方向をもたらすことが観察された。
私たちの仕事は、VLMの改善における今後の進歩を、社会的に偏見のない表現を学ぶのに役立つことを願っています。
データとコードをリリースします。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Examining Gender and Racial Bias in Large Vision-Language Models Using a
Novel Dataset of Parallel Images [10.385717398477414]
EveRyday Scenariosのための新しいデータセットPAIRS(Parallel Images for eveRyday Scenarios)を提案する。
PAIRSデータセットには、人物のAI生成画像のセットが含まれており、背景や視覚的内容の点で画像は極めて類似しているが、性別や人種の寸法によって異なる。
このような画像を用いてLVLMを問合せすることにより,人物の知覚的性別や人種による応答の有意な差を観察する。
論文 参考訳(メタデータ) (2024-02-08T16:11:23Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z) - Vision-Language Models Performing Zero-Shot Tasks Exhibit Gender-based
Disparities [19.03751960721954]
ゼロショット視覚言語モデルが、異なる視覚タスクに対してジェンダーバイアスを示す範囲について検討する。
概念の集合にまたがって複数のデータセットを持つ異なる視覚言語モデルを評価する。
論文 参考訳(メタデータ) (2023-01-26T13:44:31Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - DALL-Eval: Probing the Reasoning Skills and Social Biases of
Text-to-Image Generation Models [73.12069620086311]
テキスト・ツー・イメージ・モデルの視覚的推論能力と社会的バイアスについて検討する。
まず,物体認識,物体カウント,空間的関係理解という3つの視覚的推論スキルを計測する。
第2に、生成した画像の性別/肌の色調分布を測定することにより、性別と肌のトーンバイアスを評価する。
論文 参考訳(メタデータ) (2022-02-08T18:36:52Z) - Multi-Dimensional Gender Bias Classification [67.65551687580552]
機械学習モデルは、性別に偏ったテキストでトレーニングする際に、社会的に望ましくないパターンを不注意に学習することができる。
本稿では,テキスト中の性バイアスを複数の実用的・意味的な次元に沿って分解する一般的な枠組みを提案する。
このきめ細かいフレームワークを用いて、8つの大規模データセットにジェンダー情報を自動的にアノテートする。
論文 参考訳(メタデータ) (2020-05-01T21:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。