論文の概要: JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.15484v2
- Date: Mon, 30 Sep 2024 11:25:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 22:02:04.271810
- Title: JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models
- Title(参考訳): JobFair: 大規模言語モデルにおけるジェンダー採用バイアスのベンチマークフレームワーク
- Authors: Ze Wang, Zekun Wu, Xin Guan, Michael Thaler, Adriano Koshiyama, Skylar Lu, Sachin Beepath, Ediz Ertekin Jr., Maria Perez-Ortiz,
- Abstract要約: 本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
- 参考スコア(独自算出の注目度): 12.12628747941818
- License:
- Abstract: The use of Large Language Models (LLMs) in hiring has led to legislative actions to protect vulnerable demographic groups. This paper presents a novel framework for benchmarking hierarchical gender hiring bias in Large Language Models (LLMs) for resume scoring, revealing significant issues of reverse gender hiring bias and overdebiasing. Our contributions are fourfold: Firstly, we introduce a new construct grounded in labour economics, legal principles, and critiques of current bias benchmarks: hiring bias can be categorized into two types: Level bias (difference in the average outcomes between demographic counterfactual groups) and Spread bias (difference in the variance of outcomes between demographic counterfactual groups); Level bias can be further subdivided into statistical bias (i.e. changing with non-demographic content) and taste-based bias (i.e. consistent regardless of non-demographic content). Secondly, the framework includes rigorous statistical and computational hiring bias metrics, such as Rank After Scoring (RAS), Rank-based Impact Ratio, Permutation Test, and Fixed Effects Model. Thirdly, we analyze gender hiring biases in ten state-of-the-art LLMs. Seven out of ten LLMs show significant biases against males in at least one industry. An industry-effect regression reveals that the healthcare industry is the most biased against males. Moreover, we found that the bias performance remains invariant with resume content for eight out of ten LLMs. This indicates that the bias performance measured in this paper might apply to other resume datasets with different resume qualities. Fourthly, we provide a user-friendly demo and resume dataset to support the adoption and practical use of the framework, which can be generalized to other social traits and tasks.
- Abstract(参考訳): 雇用におけるLarge Language Models(LLM)の使用は、脆弱な人口集団を保護するための立法活動につながっている。
本稿では,大規模言語モデル(LLM)における階層的ジェンダー採用バイアスのベンチマーク手法を提案する。
まず、労働経済学、法原則、現在のバイアスベンチマークの批判に基づく新しい構成を導入する: 採用バイアスは、レベルバイアス(人口統計学的反事実グループ間の平均結果の差)とスプレッドバイアス(人口統計学的反事実グループ間の結果の分散の差)、レベルバイアスは、統計バイアス(非デデデログラフコンテンツの変更)と味覚ベースのバイアス(非デデデログラフコンテンツによらず)の2種類に分類される。
第2に、このフレームワークには、ランクアフタースコア(RAS)、ランクベースのインパクト比、置換テスト、固定効果モデルなどの厳密な統計的および計算的採用バイアスメトリクスが含まれている。
第3に、現在最先端の10のLCMにおける性別採用バイアスを分析する。
10のLSMのうち7つは、少なくとも1つの産業において男性に対して有意な偏見を示す。
産業効果のレグレッションは、医療産業が男性に最も偏っていることを示している。
さらに,10 LLMのうち8 LLM の再生コンテンツに対して,バイアス性能は不変であることが判明した。
このことから,本論文で測定したバイアス性能は,異なる履歴特性を持つ他の履歴データセットに適用できる可能性が示唆された。
第4に、ユーザフレンドリなデモと履歴データセットを提供し、他の社会的特性やタスクに一般化可能なフレームワークの採用と実用化を支援する。
関連論文リスト
- CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - VLBiasBench: A Comprehensive Benchmark for Evaluating Bias in Large Vision-Language Model [72.13121434085116]
VLBiasBenchは、LVLM(Large Vision-Language Models)におけるバイアスの評価を目的としたベンチマークである。
我々は、年齢、障害状態、性別、国籍、身体的外観、人種、宗教、職業、社会的経済状態、および2つの交叉バイアスカテゴリー(人種x性、人種x社会経済状態)を含む9つの異なる社会バイアスカテゴリーを含むデータセットを構築した。
15のオープンソースモデルと1つの高度なクローズドソースモデルに対して広範な評価を行い、これらのモデルから明らかになったバイアスに関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-06-20T10:56:59Z) - Hire Me or Not? Examining Language Model's Behavior with Occupation Attributes [7.718858707298602]
大規模言語モデル(LLM)は、採用やレコメンデーションシステムなど、プロダクションパイプラインに広く統合されている。
本稿では、職業意思決定の文脈において、ジェンダーステレオタイプに関するLCMの行動について検討する。
論文 参考訳(メタデータ) (2024-05-06T18:09:32Z) - Locating and Mitigating Gender Bias in Large Language Models [40.78150878350479]
大規模言語モデル(LLM)は、人間の好みを含む事実や人間の認知を学ぶために、広範囲なコーパスで事前訓練されている。
このプロセスは、社会においてバイアスや一般的なステレオタイプを取得するこれらのモデルに必然的に導かれる可能性がある。
本稿では,職業代名詞の性別バイアスを軽減する知識編集手法LSDMを提案する。
論文 参考訳(メタデータ) (2024-03-21T13:57:43Z) - GPTBIAS: A Comprehensive Framework for Evaluating Bias in Large Language
Models [83.30078426829627]
大規模言語モデル(LLM)は人気を集め、大規模なユーザコミュニティで広く採用されている。
既存の評価手法には多くの制約があり、それらの結果は限定的な解釈可能性を示している。
本稿では,LPMの高性能性を活用し,モデル内のバイアスを評価するGPTBIASというバイアス評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T12:02:14Z) - Probing Explicit and Implicit Gender Bias through LLM Conditional Text
Generation [64.79319733514266]
大規模言語モデル(LLM)はバイアスと有害な応答を生成する。
本研究では,あらかじめ定義されたジェンダーフレーズやステレオタイプを必要としない条件付きテキスト生成機構を提案する。
論文 参考訳(メタデータ) (2023-11-01T05:31:46Z) - ''Fifty Shades of Bias'': Normative Ratings of Gender Bias in GPT
Generated English Text [11.085070600065801]
言語は、社会的信念システムの顕在化のための強力なツールとして機能する。
ジェンダーバイアスは、私たちの社会でもっとも普及しているバイアスの1つです。
我々は、GPT生成した英語テキストの最初のデータセットを作成し、男女バイアスの規範的評価を行う。
論文 参考訳(メタデータ) (2023-10-26T14:34:06Z) - Evaluating Gender Bias of Pre-trained Language Models in Natural Language Inference by Considering All Labels [38.1620443730172]
複数の言語を対象とした事前学習言語モデル(PLM)では、差別的な性バイアスが発見されている。
自然言語推論の3つのラベルをすべて考慮した,NLI-CoAL と呼ばれる PLM のバイアス評価手法を提案する。
我々は、英語、日本語、中国語でデータセットを作成し、複数の言語にまたがるバイアス測定をうまく検証する。
論文 参考訳(メタデータ) (2023-09-18T12:02:21Z) - Testing Occupational Gender Bias in Language Models: Towards Robust Measurement and Zero-Shot Debiasing [98.07536837448293]
大規模言語モデル(LLM)は、様々な人口層に対して有害で人間らしいバイアスを示すことが示されている。
生成言語モデルにおけるバイアスを頑健に測定するためのdesiderataのリストを紹介する。
次に、このベンチマークを使用して、Llama、Mistral、およびそれらの命令チューニングバージョンを含む、最先端のオープンソースLLMをテストします。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。