論文の概要: Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.06917v2
- Date: Wed, 9 Oct 2024 11:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 22:51:20.032369
- Title: Who is better at math, Jenny or Jingzhen? Uncovering Stereotypes in Large Language Models
- Title(参考訳): 数学、Jenny、Jingzhenのどちらが得意か?
- Authors: Zara Siddique, Liam D. Turner, Luis Espinosa-Anke,
- Abstract要約: 我々はGlobalBiasを使って世界中の幅広いステレオタイプを研究しています。
与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。
- 参考スコア(独自算出の注目度): 9.734705470760511
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have been shown to propagate and amplify harmful stereotypes, particularly those that disproportionately affect marginalised communities. To understand the effect of these stereotypes more comprehensively, we introduce GlobalBias, a dataset of 876k sentences incorporating 40 distinct gender-by-ethnicity groups alongside descriptors typically used in bias literature, which enables us to study a broad set of stereotypes from around the world. We use GlobalBias to directly probe a suite of LMs via perplexity, which we use as a proxy to determine how certain stereotypes are represented in the model's internal representations. Following this, we generate character profiles based on given names and evaluate the prevalence of stereotypes in model outputs. We find that the demographic groups associated with various stereotypes remain consistent across model likelihoods and model outputs. Furthermore, larger models consistently display higher levels of stereotypical outputs, even when explicitly instructed not to.
- Abstract(参考訳): 大型言語モデル (LLM) は有害なステレオタイプを伝播し、増幅することが示されている。
これらのステレオタイプの効果をより包括的に理解するために、GlobalBiasを紹介した。これは、偏見文学で典型的に使用される記述子とともに、40の異なるジェンダー・バイ・エスニシティー・グループを含む876kの文からなるデータセットで、世界中の幅広いステレオタイプの研究を可能にする。
我々はGlobalBiasを使用して、パープレキシティ(perplexity)を介してLMのスイートを直接探索し、プロキシとして、モデルの内部表現で特定のステレオタイプがどのように表現されているかを決定する。
その後、与えられた名前に基づいて文字プロファイルを生成し、モデル出力におけるステレオタイプの有効性を評価する。
様々なステレオタイプに関連付けられた階層群は、モデル確率とモデル出力の間で一貫性が保たれていることが判明した。
さらに、より大型のモデルは、明示的に指示されていなくても、より高レベルのステレオタイプ出力を表示する。
関連論文リスト
- Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - Stereotype Detection in LLMs: A Multiclass, Explainable, and Benchmark-Driven Approach [4.908389661988191]
本稿では, 性別, 人種, 職業, 宗教, その他のステレオタイプにまたがる51,867の事例からなるMulti-Grain Stereotype (MGS)データセットを提案する。
我々は、さまざまな機械学習アプローチを評価し、異なるアーキテクチャと大きさのベースラインと微調整言語モデルを確立する。
我々は、モデルが学習したパターンがステレオタイプに関する人間の直観と一致するかどうかを評価するために、SHAP、LIME、BertVizを含む説明可能なAI(XAI)ツールを採用する。
論文 参考訳(メタデータ) (2024-04-02T09:31:32Z) - Self-Debiasing Large Language Models: Zero-Shot Recognition and
Reduction of Stereotypes [73.12947922129261]
ステレオタイピングを減らすために,大規模言語モデルのゼロショット機能を活用している。
自己嫌悪は、9つの異なる社会集団におけるステレオタイピングの度合いを著しく低下させることが示される。
この研究が、バイアス軽減のための他のゼロショット技術に関する調査をオープンにすることを願っている。
論文 参考訳(メタデータ) (2024-02-03T01:40:11Z) - SeeGULL: A Stereotype Benchmark with Broad Geo-Cultural Coverage
Leveraging Generative Models [15.145145928670827]
SeeGULLは英語の広い範囲のステレオタイプデータセットである。
6大陸にまたがる8つの異なる地政学的領域にまたがる178か国にまたがるアイデンティティグループに関するステレオタイプを含んでいる。
また、異なるステレオタイプに対するきめ細かい攻撃性スコアも含み、そのグローバルな格差を示す。
論文 参考訳(メタデータ) (2023-05-19T17:30:19Z) - Easily Accessible Text-to-Image Generation Amplifies Demographic
Stereotypes at Large Scale [61.555788332182395]
危険で複雑なステレオタイプを増幅する機械学習モデルの可能性を検討する。
さまざまな通常のプロンプトがステレオタイプを生成しており、それらは単に特性、記述子、職業、オブジェクトに言及するプロンプトを含む。
論文 参考訳(メタデータ) (2022-11-07T18:31:07Z) - Towards Understanding and Mitigating Social Biases in Language Models [107.82654101403264]
大規模事前訓練言語モデル(LM)は、望ましくない表現バイアスを示すのに潜在的に危険である。
テキスト生成における社会的バイアスを軽減するためのステップを提案する。
我々の経験的結果と人的評価は、重要な文脈情報を保持しながらバイアスを緩和する効果を示す。
論文 参考訳(メタデータ) (2021-06-24T17:52:43Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - CrowS-Pairs: A Challenge Dataset for Measuring Social Biases in Masked
Language Models [30.582132471411263]
Crowd Stereotype Pairsベンチマーク(CrowS-Pairs)を紹介する。
CrowS-Pairsには1508の例があり、人種、宗教、年齢など9種類の偏見を扱うステレオタイプをカバーしている。
その結果, CrowS-Pairs の各カテゴリーにおいて, 広く使われている3つの文のすべてが, 実質的にステレオタイプを好んでいることがわかった。
論文 参考訳(メタデータ) (2020-09-30T22:38:40Z) - StereoSet: Measuring stereotypical bias in pretrained language models [24.020149562072127]
我々は,4つの領域におけるステレオタイプバイアスを測定するために,英語の大規模自然データセットであるStereoSetを提案する。
我々は,BERT,GPT-2,RoBERTa,XLNetなどの人気モデルをデータセット上で評価し,これらのモデルが強いステレオタイプバイアスを示すことを示す。
論文 参考訳(メタデータ) (2020-04-20T17:14:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。