論文の概要: GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing
- arxiv url: http://arxiv.org/abs/2407.00600v1
- Date: Sun, 30 Jun 2024 05:55:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:26:49.444625
- Title: GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing
- Title(参考訳): GenderBias-\emph{VL}: 対実探索による視覚言語モデルにおけるジェンダーバイアスのベンチマーク
- Authors: Yisong Xiao, Aishan Liu, QianJia Cheng, Zhenfei Yin, Siyuan Liang, Jiapeng Li, Jing Shao, Xianglong Liu, Dacheng Tao,
- Abstract要約: 本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
- 参考スコア(独自算出の注目度): 72.0343083866144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have been widely adopted in various applications; however, they exhibit significant gender biases. Existing benchmarks primarily evaluate gender bias at the demographic group level, neglecting individual fairness, which emphasizes equal treatment of similar individuals. This research gap limits the detection of discriminatory behaviors, as individual fairness offers a more granular examination of biases that group fairness may overlook. For the first time, this paper introduces the GenderBias-\emph{VL} benchmark to evaluate occupation-related gender bias in LVLMs using counterfactual visual questions under individual fairness criteria. To construct this benchmark, we first utilize text-to-image diffusion models to generate occupation images and their gender counterfactuals. Subsequently, we generate corresponding textual occupation options by identifying stereotyped occupation pairs with high semantic similarity but opposite gender proportions in real-world statistics. This method enables the creation of large-scale visual question counterfactuals to expose biases in LVLMs, applicable in both multimodal and unimodal contexts through modifying gender attributes in specific modalities. Overall, our GenderBias-\emph{VL} benchmark comprises 34,581 visual question counterfactual pairs, covering 177 occupations. Using our benchmark, we extensively evaluate 15 commonly used open-source LVLMs (\eg, LLaVA) and state-of-the-art commercial APIs, including GPT-4o and Gemini-Pro. Our findings reveal widespread gender biases in existing LVLMs. Our benchmark offers: (1) a comprehensive dataset for occupation-related gender bias evaluation; (2) an up-to-date leaderboard on LVLM biases; and (3) a nuanced understanding of the biases presented by these models. \footnote{The dataset and code are available at the \href{https://genderbiasvl.github.io/}{website}.}
- Abstract(参考訳): LVLM(Large Vision-Language Models)は様々な用途で広く採用されているが、男女差が顕著である。
既存のベンチマークは、主に人口集団レベルで性別バイアスを評価し、類似した個人の平等を尊重する。
この研究のギャップは、グループフェアネスが見落としているかもしれないバイアスのよりきめ細かい検査を提供するため、差別的行動の検出を制限する。
本稿では,LVLMにおける職業関連性バイアスを,個別の公正度基準下での対実的視覚的質問を用いて評価するために,GenderBias-\emph{VL}ベンチマークを初めて導入する。
このベンチマークを構築するために、まずテキストから画像への拡散モデルを用いて、職業画像とそのジェンダーカウンターファクトを生成する。
その後、実世界の統計において、意味的類似度が高いが性別比の逆のステレオタイプ化された職業ペアを識別することにより、対応するテキストの職業オプションを生成する。
本手法は,LVLMにおいて,性別属性を特定のモダリティで変化させることにより,多モーダル・ユニモーダルの両文脈に適用可能な,大規模な視覚的疑似事実の作成を可能にする。
総じて、GenderBias-\emph{VL} ベンチマークは、34,581の視覚的質問対を対象とし、177の職業をカバーしている。
GPT-4o や Gemini-Pro など15のオープンソース LVLM (\eg, LLaVA) と最先端の商用 API を幅広く評価した。
既存のLVLMでは男女差が広くみられた。
本ベンチマークでは,(1)職業関連性バイアス評価のための包括的データセット,(2)LVLMバイアスに関する最新のリーダーボード,(3)これらのモデルが提示するバイアスの微妙な理解を提供する。
データセットとコードは \href{https://genderbiasvl.github.io/}{website} で公開されている。
※
関連論文リスト
- The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models [3.018378575149671]
視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。
画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
論文 参考訳(メタデータ) (2024-07-30T17:46:06Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。