論文の概要: Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment
- arxiv url: http://arxiv.org/abs/2509.19659v1
- Date: Wed, 24 Sep 2025 00:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.643172
- Title: Bias in the Picture: Benchmarking VLMs with Social-Cue News Images and LLM-as-Judge Assessment
- Title(参考訳): 画像のバイアス:ソーシャル・キュー・ニューズ・イメージとLCM・アズ・ジャッジ・アセスメントによるVLMのベンチマーク
- Authors: Aravind Narayanan, Vahid Reza Khazaie, Shaina Raza,
- Abstract要約: 各種コンセントから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
その結果, (i) 視覚的文脈は, モデル出力をオープンエンド設定で体系的に変化させる; (ii) バイアスの頻度は属性やモデルによって異なり, 特に性別や職業のリスクが高い; (iii) より高い忠実度は必ずしも低いバイアスに対応しないことがわかった。
- 参考スコア(独自算出の注目度): 8.451522319478512
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) can jointly interpret images and text, but they are also prone to absorbing and reproducing harmful social stereotypes when visual cues such as age, gender, race, clothing, or occupation are present. To investigate these risks, we introduce a news-image benchmark consisting of 1,343 image-question pairs drawn from diverse outlets, which we annotated with ground-truth answers and demographic attributes (age, gender, race, occupation, and sports). We evaluate a range of state-of-the-art VLMs and employ a large language model (LLM) as judge, with human verification. Our findings show that: (i) visual context systematically shifts model outputs in open-ended settings; (ii) bias prevalence varies across attributes and models, with particularly high risk for gender and occupation; and (iii) higher faithfulness does not necessarily correspond to lower bias. We release the benchmark prompts, evaluation rubric, and code to support reproducible and fairness-aware multimodal assessment.
- Abstract(参考訳): 大きな視覚言語モデル(VLM)は、画像やテキストを共同で解釈することができるが、年齢、性別、人種、衣服、職業などの視覚的手がかりが存在する場合、有害な社会的ステレオタイプを吸収し再現する傾向がある。
これらのリスクを調査するために,多様なメディアから抽出された1,343枚の画像検索ペアからなるニューズ画像ベンチマークを導入する。
我々は、最先端のVLMの評価を行い、人間の検証を伴って、大きな言語モデル(LLM)を判断に用いた。
我々の研究結果は以下のとおりである。
(i)視覚的コンテキストは、オープンエンド設定でモデル出力を体系的にシフトする。
(二 性別・職業のリスクが高い属性・モデルによってバイアスの有病率が異なること。)
(三)高い信条は必ずしも低い偏見と一致しない。
再現性と公平性を考慮したマルチモーダルアセスメントをサポートするためのベンチマークプロンプト,評価ルーリック,コードをリリースする。
関連論文リスト
- VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。
我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。
我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文 参考訳(メタデータ) (2025-05-28T22:00:30Z) - GABInsight: Exploring Gender-Activity Binding Bias in Vision-Language Models [3.018378575149671]
視覚言語モデル (VLM) は, 期待される性別の個人を行動のパフォーマーとして識別する傾向を示す。
画像やテキスト中の実際のパフォーマーの性別に関連づける際のこのバイアスを、ジェンダー・アクティビティ・バインド(GAB)バイアスと呼ぶ。
以上の結果から,VLMは性活動性結合バイアスに直面すると平均で約13.2%の低下を経験することが示唆された。
論文 参考訳(メタデータ) (2024-07-30T17:46:06Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
我々は、LVLM(Large Vision-Language Models)におけるバイアスを評価するベンチマークであるVLBiasBenchを紹介する。
VLBiasBenchは、年齢、障害ステータス、性別、国籍、身体的外観、人種、宗教、職業、社会経済ステータスを含む9つの異なる社会バイアスのカテゴリを含むデータセットと、人種x性別と人種x社会経済ステータスの2つの交叉バイアスのカテゴリを含む。
15のオープンソースモデルと2つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルに存在するバイアスに関する新たな洞察を得る。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models [9.025958469582363]
視覚言語モデル(VLM)における性別・人種・年齢バイアスを統一的に評価するための枠組みを提案する。
我々は、異なる専門分野の性別、人種、年齢情報を意図的に隠蔽する高品質な合成データセットを生成する。
このデータセットには、各専門職の行動に基づく記述が含まれており、視覚言語モデル(VLM)における社会的バイアスを評価するためのベンチマークとして機能している。
論文 参考訳(メタデータ) (2024-02-21T09:17:51Z) - VisoGender: A dataset for benchmarking gender bias in image-text pronoun
resolution [80.57383975987676]
VisoGenderは、視覚言語モデルで性別バイアスをベンチマークするための新しいデータセットである。
We focus to occupation-related biases in a hegemonic system of binary gender, inspired by Winograd and Winogender schemas。
我々は、最先端の視覚言語モデルをいくつかベンチマークし、それらが複雑な場面における二項性解消のバイアスを示すことを発見した。
論文 参考訳(メタデータ) (2023-06-21T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。