論文の概要: More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2407.06194v1
- Date: Wed, 22 May 2024 00:45:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-22 14:07:46.882818
- Title: More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models
- Title(参考訳): 視覚・言語モデルにおける顔と顔の識別がステレオタイピングの増大に繋がる
- Authors: Messi H. J. Lee, Jacob M. Montgomery, Calvin K. Lai,
- Abstract要約: 本研究では、視覚言語モデル(VLM)が、人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。
VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付けることができる。
- 参考スコア(独自算出の注目度): 0.30723404270319693
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Vision Language Models (VLMs), exemplified by GPT-4V, adeptly integrate text and vision modalities. This integration enhances Large Language Models' ability to mimic human perception, allowing them to process image inputs. Despite VLMs' advanced capabilities, however, there is a concern that VLMs inherit biases of both modalities in ways that make biases more pervasive and difficult to mitigate. Our study explores how VLMs perpetuate homogeneity bias and trait associations with regards to race and gender. When prompted to write stories based on images of human faces, GPT-4V describes subordinate racial and gender groups with greater homogeneity than dominant groups and relies on distinct, yet generally positive, stereotypes. Importantly, VLM stereotyping is driven by visual cues rather than group membership alone such that faces that are rated as more prototypically Black and feminine are subject to greater stereotyping. These findings suggest that VLMs may associate subtle visual cues related to racial and gender groups with stereotypes in ways that could be challenging to mitigate. We explore the underlying reasons behind this behavior and discuss its implications and emphasize the importance of addressing these biases as VLMs come to mirror human perception.
- Abstract(参考訳): 視覚言語モデル (VLM) は GPT-4V で例示され、テキストと視覚のモダリティを十分に統合している。
この統合により、大言語モデルの人間の知覚を模倣する能力が向上し、画像入力を処理できるようになる。
しかし、VLMの高度な能力にもかかわらず、VLMが両方のモードのバイアスを、より広く、緩和しにくい方法で継承するのではないかという懸念がある。
本研究は、VLMが人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。
ヒトの顔の画像に基づいて物語を書くように促されたとき、GPT-4Vは、支配的なグループよりも従属の人種と性別のグループを記述し、異なるが概して肯定的なステレオタイプに依存している。
重要なのは、VLMステレオタイピングは、グループメンバーシップのみではなく、視覚的な手がかりによって駆動されるため、より原始的なものとしてブラックとフェミニンと評価される顔は、より大きなステレオタイピングを受ける。
これらの結果は、VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付ける可能性があることを示唆している。
我々は、この行動の背後にある根本的な理由を探求し、その意味を議論し、VLMが人間の知覚を反映するようになるにつれて、これらのバイアスに対処することの重要性を強調する。
関連論文リスト
- See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。
我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文 参考訳(メタデータ) (2024-06-17T15:49:51Z) - An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。
VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。
本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文 参考訳(メタデータ) (2024-05-27T15:01:23Z) - Protected group bias and stereotypes in Large Language Models [2.1122940074160357]
本稿では,倫理と公正の領域におけるLarge Language Models(LLM)の振る舞いについて考察する。
マイノリティ化されたグループに偏見はありますが、特に性別やセクシュアリティの領域では、西洋の偏見も見られます。
論文 参考訳(メタデータ) (2024-03-21T00:21:38Z) - Large Language Models Portray Socially Subordinate Groups as More Homogeneous, Consistent with a Bias Observed in Humans [0.30723404270319693]
大規模言語モデル(LLM)における新しい形式のバイアスについて検討する。
チャットGPTはアフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック系アメリカ人を白人よりも同質であると表現した。
グループを多様性の低いリスクとして表現する傾向は、ステレオタイプや差別行動に永続する傾向があると論じる。
論文 参考訳(メタデータ) (2024-01-16T16:52:00Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs [67.51906565969227]
LLMの基本的な推論タスクの実行能力に対するペルソナ代入の意図しない副作用について検討する。
本研究は,5つの社会デコグラフィーグループにまたがる24の推論データセット,4つのLDM,19の多様な個人(アジア人など)について検討した。
論文 参考訳(メタデータ) (2023-11-08T18:52:17Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z) - On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。
特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。
これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文 参考訳(メタデータ) (2023-05-26T13:49:44Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。