論文の概要: VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2505.22897v1
- Date: Wed, 28 May 2025 22:00:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.556335
- Title: VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models
- Title(参考訳): VIGNETTE:視覚言語モデルのための社会的基盤バイアス評価
- Authors: Chahat Raj, Bowen Wei, Aylin Caliskan, Antonios Anastasopoulos, Ziwei Zhu,
- Abstract要約: 本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。
我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。
我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
- 参考スコア(独自算出の注目度): 23.329280888159744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While bias in large language models (LLMs) is well-studied, similar concerns in vision-language models (VLMs) have received comparatively less attention. Existing VLM bias studies often focus on portrait-style images and gender-occupation associations, overlooking broader and more complex social stereotypes and their implied harm. This work introduces VIGNETTE, a large-scale VQA benchmark with 30M+ images for evaluating bias in VLMs through a question-answering framework spanning four directions: factuality, perception, stereotyping, and decision making. Beyond narrowly-centered studies, we assess how VLMs interpret identities in contextualized settings, revealing how models make trait and capability assumptions and exhibit patterns of discrimination. Drawing from social psychology, we examine how VLMs connect visual identity cues to trait and role-based inferences, encoding social hierarchies, through biased selections. Our findings uncover subtle, multifaceted, and surprising stereotypical patterns, offering insights into how VLMs construct social meaning from inputs.
- Abstract(参考訳): 大規模言語モデル(LLM)のバイアスはよく研究されているが、視覚言語モデル(VLM)も同様の懸念が比較的少ない。
既存のVLMバイアス研究は、しばしばポートレートスタイルのイメージやジェンダーに焦点をあて、より広範に複雑な社会的ステレオタイプとそれらの意味のある害を見渡す。
この研究は、VIGNETTEという大規模なVQAベンチマークを導入し、VLMのバイアスを評価するために、事実性、知覚、ステレオタイピング、意思決定の4つの方向をまたがる質問応答フレームワークを用いて、VLMのバイアスを評価する。
狭義の研究以外にも、VLMがコンテキスト化された設定におけるアイデンティティをどのように解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。
社会的心理学から、VLMが視覚的アイデンティティーの手がかりと特性と役割に基づく推論を結び、偏りのある選択を通して社会的階層を符号化する方法について検討する。
我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
関連論文リスト
- A Stereotype Content Analysis on Color-related Social Bias in Large Vision Language Models [5.12659586713042]
本研究では,ステレオタイプコンテンツモデル(SCM)に基づく新しい評価指標を提案する。
また、性別、人種、色彩のステレオタイプを評価するためのベンチマークであるBASICを提案する。
論文 参考訳(メタデータ) (2025-05-27T08:44:05Z) - Visual Cues of Gender and Race are Associated with Stereotyping in Vision-Language Models [0.2812395851874055]
プロトタイプ性が異なる標準化された顔画像を用いて、4つの視覚言語モデルを用いて、オープンエンドコンテキストにおける特徴関連と均質性バイアスの両方を検査する。
VLMは男性に比べて一貫して女性向けの均一なストーリーを生成しており、外見がより独特な人はより均一に表現される。
特徴的関連性については、ステレオタイピングと黒人が全てのモデルで一貫してバスケットボールと結びついているという限られた証拠が得られ、他の人種的関連性(芸術、医療、外見など)は特定のVLMによって異なる。
論文 参考訳(メタデータ) (2025-03-07T02:25:16Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - See It from My Perspective: How Language Affects Cultural Bias in Image Understanding [60.70852566256668]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
画像理解におけるVLMの西洋的偏見を特徴付け,この格差の中で言語が果たす役割について検討する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models [0.30723404270319693]
本研究では、視覚言語モデル(VLM)が、人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。
VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付けることができる。
論文 参考訳(メタデータ) (2024-05-22T00:45:29Z) - A Unified Framework and Dataset for Assessing Societal Bias in Vision-Language Models [9.025958469582363]
視覚言語モデル(VLM)における性別・人種・年齢バイアスを統一的に評価するための枠組みを提案する。
我々は、異なる専門分野の性別、人種、年齢情報を意図的に隠蔽する高品質な合成データセットを生成する。
このデータセットには、各専門職の行動に基づく記述が含まれており、視覚言語モデル(VLM)における社会的バイアスを評価するためのベンチマークとして機能している。
論文 参考訳(メタデータ) (2024-02-21T09:17:51Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。