論文の概要: VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models
- arxiv url: http://arxiv.org/abs/2503.07575v1
- Date: Mon, 10 Mar 2025 17:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:54:26.546008
- Title: VisBias: Measuring Explicit and Implicit Social Biases in Vision Language Models
- Title(参考訳): VisBias:視覚言語モデルにおける明示的・暗黙的な社会的バイアスの測定
- Authors: Jen-tse Huang, Jiantong Qin, Jianping Zhang, Youliang Yuan, Wenxuan Wang, Jieyu Zhao,
- Abstract要約: 本研究は、視覚言語モデル(VLM)による明示的・暗黙的な社会的偏見について検討する。
明示的偏見は意識的、意図的偏見を指し、暗黙的偏見は意識的に活動する。
- 参考スコア(独自算出の注目度): 37.20708760568649
- License:
- Abstract: This research investigates both explicit and implicit social biases exhibited by Vision-Language Models (VLMs). The key distinction between these bias types lies in the level of awareness: explicit bias refers to conscious, intentional biases, while implicit bias operates subconsciously. To analyze explicit bias, we directly pose questions to VLMs related to gender and racial differences: (1) Multiple-choice questions based on a given image (e.g., "What is the education level of the person in the image?") (2) Yes-No comparisons using two images (e.g., "Is the person in the first image more educated than the person in the second image?") For implicit bias, we design tasks where VLMs assist users but reveal biases through their responses: (1) Image description tasks: Models are asked to describe individuals in images, and we analyze disparities in textual cues across demographic groups. (2) Form completion tasks: Models draft a personal information collection form with 20 attributes, and we examine correlations among selected attributes for potential biases. We evaluate Gemini-1.5, GPT-4V, GPT-4o, LLaMA-3.2-Vision and LLaVA-v1.6. Our code and data are publicly available at https://github.com/uscnlp-lime/VisBias.
- Abstract(参考訳): 本研究では,視覚言語モデル(VLM)が示す,明示的・暗黙的な社会的偏見について検討する。
明示的偏見は意識的、意図的偏見を指し、暗黙的偏見は意識的に活動する。
露骨な偏見を解析するために, 性別と人種差に関する質問を直接的に行う: 1) 与えられた画像に基づいて複数の選択質問(例: 「画像内の人物の教育レベル」) (2) 2つの画像を用いた「イエス」比較(例:「第1画像の人物は第2画像の人物よりも教育を受けやすい」) 1) 暗黙的な偏見では,VLMがユーザを支援するが,その反応を通じてバイアスを明らかにするタスクを設計する: (1) 画像記述タスク: モデルが画像中の個人を記述するよう求められ, 人口集団間でのテキストキューの違いを分析する。
2) フォーム完了タスク: モデルが20属性の個人情報収集フォームをドラフトし, 潜在的なバイアスに対する属性間の相関について検討する。
我々はGemini-1.5, GPT-4V, GPT-4o, LLaMA-3.2-Vision, LLaVA-v1.6を評価した。
私たちのコードとデータはhttps://github.com/uscnlp-lime/VisBias.comで公開されています。
関連論文リスト
- Fact-or-Fair: A Checklist for Behavioral Testing of AI Models on Fairness-Related Queries [85.909363478929]
本研究では,権威ある情報源から収集した19の実世界統計に着目した。
主観的および主観的な問合せからなるチェックリストを作成し,大規模言語モデルの振る舞いを解析する。
事実性と公平性を評価するためのメトリクスを提案し、これらの2つの側面の間に固有のトレードオフを正式に証明する。
論文 参考訳(メタデータ) (2025-02-09T10:54:11Z) - GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models [3.018378575149671]
視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。
画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
論文 参考訳(メタデータ) (2024-07-30T17:46:06Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - Think Before You Act: A Two-Stage Framework for Mitigating Gender Bias Towards Vision-Language Tasks [5.123567809055078]
視覚言語モデル(VLM)における性バイアスは、有害なステレオタイプや差別を強化することができる。
本稿では,ジェンダーバイアスを軽減するためのタスク依存生成フレームワークGAMAを提案する。
物語生成の際、GAMAは全面的だが性的に難解な物語を産み出す。
回答推論の間、GAMAは画像、生成された物語、タスク固有の質問プロンプトを統合し、異なる視覚言語タスクに対する回答を推測する。
論文 参考訳(メタデータ) (2024-05-27T06:20:58Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z) - Discovering and Mitigating Visual Biases through Keyword Explanation [66.71792624377069]
視覚バイアスをキーワードとして解釈するBias-to-Text(B2T)フレームワークを提案する。
B2Tは、CelebAの性別バイアス、ウォーターバードの背景バイアス、ImageNet-R/Cの分布シフトなど、既知のバイアスを特定することができる。
B2Tは、Dollar StreetやImageNetのような大きなデータセットで、新しいバイアスを明らかにする。
論文 参考訳(メタデータ) (2023-01-26T13:58:46Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Grading video interviews with fairness considerations [1.7403133838762446]
本稿では,質問に対するビデオ応答に基づいて,候補者の社会的スキルを自動的に導き出す手法を提案する。
社会的スキルを予測するための2つの機械学習モデルを開発した。
我々は、人種と性別によるモデルの誤りを研究することによって、公正さを分析する。
論文 参考訳(メタデータ) (2020-07-02T10:06:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。