論文の概要: What's in a Name? Auditing Large Language Models for Race and Gender
Bias
- arxiv url: http://arxiv.org/abs/2402.14875v2
- Date: Thu, 29 Feb 2024 19:39:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-04 13:42:25.306014
- Title: What's in a Name? Auditing Large Language Models for Race and Gender
Bias
- Title(参考訳): 名前の由来は?
レースとジェンダーバイアスのための大規模言語モデルの検討
- Authors: Amit Haim, Alejandro Salinas, Julian Nyarko
- Abstract要約: 我々は、GPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
- 参考スコア(独自算出の注目度): 49.28899492966893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We employ an audit design to investigate biases in state-of-the-art large
language models, including GPT-4. In our study, we prompt the models for advice
involving a named individual across a variety of scenarios, such as during car
purchase negotiations or election outcome predictions. We find that the advice
systematically disadvantages names that are commonly associated with racial
minorities and women. Names associated with Black women receive the least
advantageous outcomes. The biases are consistent across 42 prompt templates and
several models, indicating a systemic issue rather than isolated incidents.
While providing numerical, decision-relevant anchors in the prompt can
successfully counteract the biases, qualitative details have inconsistent
effects and may even increase disparities. Our findings underscore the
importance of conducting audits at the point of LLM deployment and
implementation to mitigate their potential for harm against marginalized
communities.
- Abstract(参考訳): 我々はGPT-4を含む最先端の大規模言語モデルのバイアスを調査するために監査設計を採用する。
本研究では,車購入交渉や選挙結果の予測など,さまざまなシナリオにおいて,名前付き個人に関するアドバイスをモデルに促す。
このアドバイスは、一般的に人種的マイノリティや女性に結びついている名前に系統的に不利であることがわかった。
黒人女性にまつわる名前は、最も有利な結果を得る。
バイアスは42のプロンプトテンプレートといくつかのモデルで一貫性があり、孤立したインシデントではなく、システム的な問題を示している。
プロンプトに数値的かつ決定関連のあるアンカーを提供することで、バイアスをうまく対処できるが、質的詳細は矛盾する効果を持ち、不一致を増加させることもある。
本研究は, LLMの展開と実施の時点での監査の実施の重要性を浮き彫りにした。
関連論文リスト
- GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - What Do Llamas Really Think? Revealing Preference Biases in Language
Model Representations [62.91799637259657]
大規模言語モデル(LLMs)は、応答を辞退しても、社会的な偏見を示すか?
本研究は,文脈的埋め込みを探索し,このバイアスが潜在表現にエンコードされているかどうかを探索することによって検討する。
単語の隠れベクトルからLLMの単語ペア選好を予測するロジスティックなBradley-Terryプローブを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:53:13Z) - Aligning with Whom? Large Language Models Have Gender and Racial Biases
in Subjective NLP Tasks [15.015148115215315]
我々は4つのポピュラーな大言語モデル(LLM)の実験を行い、集団差と潜在的なバイアスを理解する能力について、丁寧さと不快さの予測について検討する。
どちらのタスクでも、モデル予測は白人と女性の参加者のラベルに近いことが分かりました。
より具体的には、"ブラック"と"アジア"個人の観点から反応するよう促された場合、モデルは、対応するグループからのスコアだけでなく、全体的なスコアを予測する際のパフォーマンスを低下させる。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - The Unequal Opportunities of Large Language Models: Revealing
Demographic Bias through Job Recommendations [5.898806397015801]
大規模言語モデル(LLM)における人口統計バイアスの分析と比較のための簡易な手法を提案する。
本稿では,ChatGPTとLLaMAの交差バイアスを計測し,本手法の有効性を示す。
両モデルとも、メキシコ労働者の低賃金雇用を一貫して示唆するなど、さまざまな人口統計学的アイデンティティに対する偏見を識別する。
論文 参考訳(メタデータ) (2023-08-03T21:12:54Z) - A Trip Towards Fairness: Bias and De-Biasing in Large Language Models [1.987426401990999]
安価なトレーニングを備えたCtB-LLM(Cheap-to-Build Very Large-Language Model)が、自然言語処理と理解における次の大きな革命として現れている。
本稿では,CtB-LLMの3家系の偏りを大規模に調査した。
脱バイアス技術は有効であり,有効であることを示す。
論文 参考訳(メタデータ) (2023-05-23T09:35:37Z) - MultiModal Bias: Introducing a Framework for Stereotypical Bias
Assessment beyond Gender and Race in Vision Language Models [40.12132844347926]
MMBiasと呼ばれる視覚的およびテキスト的バイアスベンチマークを提供し、約3,800の画像と14のサブグループをカバーするフレーズからなる。
このデータセットを用いて、CLIP、ALBEF、VLTを含むいくつかの著名な自己監督型マルチモーダルモデルにおけるバイアスを評価する。
バイアスを緩和するための後処理ステップとして適用可能な,大規模な事前学習モデルに特化して設計されたデバイアス処理手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:36:37Z) - Estimating Racial Disparities When Race is Not Observed [1.4418363806859886]
医療、金融サービス、投票、その他の文脈における人種格差の推定は、行政記録における個人レベルの人種情報の欠如によってしばしば妨げられる。
BISGは、個々の名前とアドレスと国勢調査データを組み合わせて人種を予測する。
BISGはよく分類された人種的予測を生み出す傾向にあるが、その残差はしばしば関心の結果と相関している。
本稿では,このバイアスを補正する代替の識別戦略を提案する。
論文 参考訳(メタデータ) (2023-03-05T04:46:16Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - How True is GPT-2? An Empirical Analysis of Intersectional Occupational
Biases [50.591267188664666]
下流のアプリケーションは、自然言語モデルに含まれるバイアスを継承するリスクがある。
一般的な生成言語モデルであるGPT-2の作業バイアスを分析した。
特定の仕事について、GPT-2は米国におけるジェンダーと民族の社会的偏見を反映しており、場合によってはジェンダー・パリティの傾向を反映している。
論文 参考訳(メタデータ) (2021-02-08T11:10:27Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。