Fugu-MT 論文翻訳(概要): More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models

論文の概要: More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models

arxiv url: http://arxiv.org/abs/2407.06194v1
Date: Wed, 22 May 2024 00:45:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 14:07:46.882818
Title: More Distinctively Black and Feminine Faces Lead to Increased Stereotyping in Vision-Language Models
Title（参考訳）: 視覚・言語モデルにおける顔と顔の識別がステレオタイピングの増大に繋がる
Authors: Messi H. J. Lee, Jacob M. Montgomery, Calvin K. Lai,
Abstract要約: 本研究では、視覚言語モデル(VLM)が、人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。 VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付けることができる。
参考スコア（独自算出の注目度）: 0.30723404270319693
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision Language Models (VLMs), exemplified by GPT-4V, adeptly integrate text and vision modalities. This integration enhances Large Language Models' ability to mimic human perception, allowing them to process image inputs. Despite VLMs' advanced capabilities, however, there is a concern that VLMs inherit biases of both modalities in ways that make biases more pervasive and difficult to mitigate. Our study explores how VLMs perpetuate homogeneity bias and trait associations with regards to race and gender. When prompted to write stories based on images of human faces, GPT-4V describes subordinate racial and gender groups with greater homogeneity than dominant groups and relies on distinct, yet generally positive, stereotypes. Importantly, VLM stereotyping is driven by visual cues rather than group membership alone such that faces that are rated as more prototypically Black and feminine are subject to greater stereotyping. These findings suggest that VLMs may associate subtle visual cues related to racial and gender groups with stereotypes in ways that could be challenging to mitigate. We explore the underlying reasons behind this behavior and discuss its implications and emphasize the importance of addressing these biases as VLMs come to mirror human perception.
Abstract（参考訳）: 視覚言語モデル (VLM) は GPT-4V で例示され、テキストと視覚のモダリティを十分に統合している。この統合により、大言語モデルの人間の知覚を模倣する能力が向上し、画像入力を処理できるようになる。しかし、VLMの高度な能力にもかかわらず、VLMが両方のモードのバイアスを、より広く、緩和しにくい方法で継承するのではないかという懸念がある。本研究は、VLMが人種や性別に関して、均質性バイアスと特性関連を持続させる方法について考察する。ヒトの顔の画像に基づいて物語を書くように促されたとき、GPT-4Vは、支配的なグループよりも従属の人種と性別のグループを記述し、異なるが概して肯定的なステレオタイプに依存している。重要なのは、VLMステレオタイピングは、グループメンバーシップのみではなく、視覚的な手がかりによって駆動されるため、より原始的なものとしてブラックとフェミニンと評価される顔は、より大きなステレオタイピングを受ける。これらの結果は、VLMは人種や性別に関連する微妙な視覚的手がかりとステレオタイプを、緩和が難しい方法で関連付ける可能性があることを示唆している。我々は、この行動の背後にある根本的な理由を探求し、その意味を議論し、VLMが人間の知覚を反映するようになるにつれて、これらのバイアスに対処することの重要性を強調する。

関連論文リスト

VIGNETTE: Socially Grounded Bias Evaluation for Vision-Language Models [23.329280888159744]
本稿では、視覚言語モデル(VLM)のバイアスを評価するために、30M以上の画像を持つ大規模VQAベンチマークであるVIGNETTEを紹介する。我々は、VLMが文脈的設定におけるアイデンティティをどう解釈するかを評価し、モデルがどのように特性と能力の仮定を作成し、差別のパターンを示すかを明らかにする。我々の発見は微妙で多面的で驚くべきステレオタイプパターンを明らかにし、VLMが入力から社会的意味をどう構築するかについての洞察を提供する。
論文参考訳（メタデータ） (2025-05-28T22:00:30Z)
Visual Cues of Gender and Race are Associated with Stereotyping in Vision-Language Models [0.2812395851874055]
プロトタイプ性が異なる標準化された顔画像を用いて、4つの視覚言語モデルを用いて、オープンエンドコンテキストにおける特徴関連と均質性バイアスの両方を検査する。 VLMは男性に比べて一貫して女性向けの均一なストーリーを生成しており、外見がより独特な人はより均一に表現される。特徴的関連性については、ステレオタイピングと黒人が全てのモデルで一貫してバスケットボールと結びついているという限られた証拠が得られ、他の人種的関連性(芸術、医療、外見など)は特定のVLMによって異なる。
論文参考訳（メタデータ） (2025-03-07T02:25:16Z)
Vision-Language Models Generate More Homogeneous Stories for Phenotypically Black Individuals [0.0]
本研究では,人種的特徴が視覚言語モデルのアウトプットに与える影響について検討した。まず、VLMは、表現特異性が高い黒人について、より均質なストーリーを生成する。第二に、黒人女性に関する話は、すべてのモデルでテストされた黒人男性に関する話よりもずっと均一である。第3に、この均質性バイアスは、主に黒人女性のコンテンツ変化に顕著に影響を及ぼすが、黒人男性にはほとんど影響を与えない、顕著な相互作用によって引き起こされる。
論文参考訳（メタデータ） (2024-12-12T18:53:49Z)
Revealing and Reducing Gender Biases in Vision and Language Assistants (VLAs) [82.57490175399693]
画像・テキスト・ビジョン言語アシスタント(VLA)22種における性別バイアスの検討以上の結果から,VLAは実世界の作業不均衡など,データ中の人間のバイアスを再現する可能性が示唆された。これらのモデルにおける性別バイアスを排除するため、微調整に基づくデバイアス法は、下流タスクにおけるデバイアスとパフォーマンスの最良のトレードオフを実現する。
論文参考訳（メタデータ） (2024-10-25T05:59:44Z)
Are Large Language Models Ready for Travel Planning? [6.307444995285539]
大規模言語モデル (LLMs) は、宿泊や観光において有望であり、人口統計群にまたがるサービス提供能力は未だ不明である。本稿では,LDMを旅行計画アシスタントとして利用する際の性別と民族的偏見について検討する。
論文参考訳（メタデータ） (2024-10-22T18:08:25Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
See It from My Perspective: Diagnosing the Western Cultural Bias of Large Vision-Language Models in Image Understanding [78.88461026069862]
視覚言語モデル(VLM)は、多くの言語における画像に関するクエリに応答することができる。我々は、画像理解における西洋の偏見を実証し、局所化する新しい研究を提案する。
論文参考訳（メタデータ） (2024-06-17T15:49:51Z)
An Introduction to Vision-Language Modeling [128.6223984157515]
視覚言語モデル(VLM)の応用は、我々の技術との関係に大きな影響を与えるだろう。 VLMとは何か、どのように動作するのか、どのようにトレーニングするかを紹介します。本研究は,主に画像から言語へのマッピングに焦点を当てるが,ビデオへのVLMの拡張についても論じる。
論文参考訳（メタデータ） (2024-05-27T15:01:23Z)
Large Language Models Portray Socially Subordinate Groups as More Homogeneous, Consistent with a Bias Observed in Humans [0.30723404270319693]
大規模言語モデル(LLM)における新しい形式のバイアスについて検討する。チャットGPTはアフリカ系アメリカ人、アジア系アメリカ人、ヒスパニック系アメリカ人を白人よりも同質であると表現した。グループを多様性の低いリスクとして表現する傾向は、ステレオタイプや差別行動に永続する傾向があると論じる。
論文参考訳（メタデータ） (2024-01-16T16:52:00Z)
Aligning with Whom? Large Language Models Have Gender and Racial Biases in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文参考訳（メタデータ） (2023-11-16T10:02:24Z)
Marked Personas: Using Natural Language Prompts to Measure Stereotypes in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。 GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文参考訳（メタデータ） (2023-05-29T16:29:22Z)
On Evaluating Adversarial Robustness of Large Vision-Language Models [64.66104342002882]
大規模視覚言語モデル(VLM)のロバスト性を,最も現実的で高リスクな環境で評価する。特に,CLIP や BLIP などの事前学習モデルに対して,まず攻撃対象のサンプルを作成する。これらのVLM上のブラックボックスクエリは、ターゲットの回避の効果をさらに向上させることができる。
論文参考訳（メタデータ） (2023-05-26T13:49:44Z)
Easily Accessible Text-to-Image Generation Amplifies Demographic Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文参考訳（メタデータ） (2022-11-07T18:31:07Z)
Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。テキスト生成における社会的バイアスを軽減するためのステップを提案する。我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文参考訳（メタデータ） (2021-06-24T17:52:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。