論文の概要: Ask Me Again Differently: GRAS for Measuring Bias in Vision Language Models on Gender, Race, Age, and Skin Tone
- arxiv url: http://arxiv.org/abs/2508.18989v1
- Date: Tue, 26 Aug 2025 12:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.841905
- Title: Ask Me Again Differently: GRAS for Measuring Bias in Vision Language Models on Gender, Race, Age, and Skin Tone
- Title(参考訳): ジェンダー、レース、年齢、肌のトーンの視覚言語モデルにおけるバイアス測定のためのGRAS
- Authors: Shaivi Malik, Hasnat Md Abdullah, Sriparna Saha, Amit Sheth,
- Abstract要約: 我々は、視覚言語モデル(VLM)における人口統計バイアスを明らかにするためのベンチマークであるGRASを紹介する。
我々は5つの最先端のVLMをベンチマークし、バイアスレベルについて明らかにした。
- 参考スコア(独自算出の注目度): 12.276292861328026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Vision Language Models (VLMs) become integral to real-world applications, understanding their demographic biases is critical. We introduce GRAS, a benchmark for uncovering demographic biases in VLMs across gender, race, age, and skin tone, offering the most diverse coverage to date. We further propose the GRAS Bias Score, an interpretable metric for quantifying bias. We benchmark five state-of-the-art VLMs and reveal concerning bias levels, with the least biased model attaining a GRAS Bias Score of only 2 out of 100. Our findings also reveal a methodological insight: evaluating bias in VLMs with visual question answering (VQA) requires considering multiple formulations of a question. Our code, data, and evaluation results are publicly available.
- Abstract(参考訳): ビジョン言語モデル(VLM)が現実世界のアプリケーションにとって不可欠なものになるにつれ、それらの人口統計バイアスを理解することが重要である。
GRASは、性別、人種、年齢、肌のトーンにまたがるVLMの人口統計バイアスを明らかにするためのベンチマークであり、これまでで最も多様なカバレッジを提供する。
さらに、バイアスの定量化のための解釈可能な計量であるGRAS Bias Scoreを提案する。
我々は5つの最先端のVLMをベンチマークし、バイアスレベルについて明らかにした。
視覚的質問応答(VQA)によるVLMのバイアス評価には,複数の質問の定式化を検討する必要がある。
コード、データ、評価結果は公開されています。
関連論文リスト
- The Biased Samaritan: LLM biases in Perceived Kindness [0.0]
大規模言語モデル(LLM)は、多くの分野で広く普及している。
本稿では,様々な生成AIモデルの階層バイアスを評価するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-06-12T23:33:42Z) - Surface Fairness, Deep Bias: A Comparative Study of Bias in Language Models [49.41113560646115]
大規模言語モデル(LLM)におけるバイアスの様々なプロキシ尺度について検討する。
MMLU (Multi-subject benchmark) を用いた人格評価モデルでは, スコアの無作為かつ大半がランダムな差が生じることがわかった。
LLMアシスタントメモリとパーソナライゼーションの最近の傾向により、これらの問題は異なる角度から開かれている。
論文 参考訳(メタデータ) (2025-06-12T08:47:40Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models [9.025958469582363]
視覚言語モデル(VLM)における性別・人種・年齢バイアスを統一的に評価するための枠組みを提案する。
我々は、異なる専門分野の性別、人種、年齢情報を意図的に隠蔽する高品質な合成データセットを生成する。
このデータセットには、各専門職の行動に基づく記述が含まれており、視覚言語モデル(VLM)における社会的バイアスを評価するためのベンチマークとして機能している。
論文 参考訳(メタデータ) (2024-02-21T09:17:51Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。