論文の概要: GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.21001v1
- Date: Tue, 30 Jul 2024 17:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 16:21:06.200000
- Title: GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models
- Title(参考訳): GABInsight:ビジョンランゲージモデルにおけるジェンダー・アクティビティ結合バイアスの探索
- Authors: Ali Abdollahi, Mahdi Ghaznavi, Mohammad Reza Karimi Nejad, Arash Mari Oriyad, Reza Abbasi, Ali Salesi, Melika Behjati, Mohammad Hossein Rohban, Mahdieh Soleymani Baghshah,
- Abstract要約: 視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。
画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
- 参考スコア(独自算出の注目度): 3.018378575149671
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) are intensively used in many downstream tasks, including those requiring assessments of individuals appearing in the images. While VLMs perform well in simple single-person scenarios, in real-world applications, we often face complex situations in which there are persons of different genders doing different activities. We show that in such cases, VLMs are biased towards identifying the individual with the expected gender (according to ingrained gender stereotypes in the model or other forms of sample selection bias) as the performer of the activity. We refer to this bias in associating an activity with the gender of its actual performer in an image or text as the Gender-Activity Binding (GAB) bias and analyze how this bias is internalized in VLMs. To assess this bias, we have introduced the GAB dataset with approximately 5500 AI-generated images that represent a variety of activities, addressing the scarcity of real-world images for some scenarios. To have extensive quality control, the generated images are evaluated for their diversity, quality, and realism. We have tested 12 renowned pre-trained VLMs on this dataset in the context of text-to-image and image-to-text retrieval to measure the effect of this bias on their predictions. Additionally, we have carried out supplementary experiments to quantify the bias in VLMs' text encoders and to evaluate VLMs' capability to recognize activities. Our experiments indicate that VLMs experience an average performance decline of about 13.2% when confronted with gender-activity binding bias.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像に現れる個人の評価を必要とするものを含む、多くの下流タスクで集中的に使用される。
VLMは単純なシングルパーソンのシナリオではうまく機能するが、現実のアプリケーションでは、異なる性別の人が異なる活動を行う複雑な状況に直面していることが多い。
このような場合、VLMは、期待される性別(モデルその他のサンプル選択バイアスの詳細な性別ステレオタイプによる)を行動のパフォーマーとして特定する傾向を示す。
画像やテキスト中の実際のパフォーマーのジェンダーに関連付けるバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼び、このバイアスがどのようにVLMの内部化されるかを分析する。
このバイアスを評価するために、私たちはGABデータセットを導入し、いくつかのシナリオにおいて現実世界のイメージの不足に対処する、さまざまなアクティビティを表す約5500のAI生成イメージを作成しました。
広範に品質制御を行うため、生成した画像は、その多様性、品質、リアリズムについて評価される。
我々は,テキスト・ツー・イメージ検索と画像・ツー・テキスト検索の文脈で,このデータセット上で12の有名な事前学習VLMをテストし,そのバイアスが予測に与える影響を計測した。
さらに,VLMのテキストエンコーダのバイアスを定量化し,VLMのアクティビティ認識能力を評価するための補足実験を行った。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
関連論文リスト
- Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討
以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。
これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文 参考訳(メタデータ) (2024-10-25T05:59:44Z) - FaceSaliencyAug: Mitigating Geographic, Gender and Stereotypical Biases via Saliency-Based Data Augmentation [46.74201905814679]
コンピュータビジョンモデルにおける性別バイアスに対処することを目的としたFaceSaliencyAugというアプローチを提案する。
Flickr Faces HQ(FFHQ)、WIKI、IMDB、Labelled Faces in the Wild(LFW)、UTK Faces、Diverseデータセットを含む5つのデータセットで、画像類似度スコア(ISS)を使用してデータセットの多様性を定量化する。
実験の結果,CNN と ViT の男女差の低減が明らかとなり,コンピュータビジョンモデルにおける公平性と傾きの促進に本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2024-10-17T22:36:52Z) - GenderCARE: A Comprehensive Framework for Assessing and Reducing Gender Bias in Large Language Models [73.23743278545321]
大規模言語モデル(LLM)は、自然言語生成において顕著な能力を示してきたが、社会的バイアスを増大させることも観察されている。
GenderCAREは、革新的な基準、バイアス評価、リダクションテクニック、評価メトリクスを含む包括的なフレームワークである。
論文 参考訳(メタデータ) (2024-08-22T15:35:46Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models [9.025958469582363]
視覚言語モデル(VLM)における性別・人種・年齢バイアスを統一的に評価するための枠組みを提案する。
我々は、異なる専門分野の性別、人種、年齢情報を意図的に隠蔽する高品質な合成データセットを生成する。
このデータセットには、各専門職の行動に基づく記述が含まれており、視覚言語モデル(VLM)における社会的バイアスを評価するためのベンチマークとして機能している。
論文 参考訳(メタデータ) (2024-02-21T09:17:51Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - DeAR: Debiasing Vision-Language Models with Additive Residuals [5.672132510411465]
大規模な事前学習型視覚言語モデル(VLM)は、リッチで適応可能な画像とテキスト表現を提供する。
これらのモデルは、トレーニングデータ中の様々なアイデンティティ群が歪んだ分布のため、社会的バイアスに悩まされる。
本稿では,元の表現をオフセットする付加的残像表現を学習する新しいデバイアス法であるDeARを提案する。
論文 参考訳(メタデータ) (2023-03-18T14:57:43Z) - Auditing Gender Presentation Differences in Text-to-Image Models [54.16959473093973]
我々は、テキスト・ツー・イメージ・モデルにおいて、ジェンダーがどのように異なる形で提示されるかを研究する。
入力テキスト中の性指標を探索することにより、プレゼンテーション中心属性の周波数差を定量化する。
このような違いを推定する自動手法を提案する。
論文 参考訳(メタデータ) (2023-02-07T18:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。