論文の概要: Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts
- arxiv url: http://arxiv.org/abs/2501.04316v1
- Date: Wed, 08 Jan 2025 07:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:56:15.122107
- Title: Who Does the Giant Number Pile Like Best: Analyzing Fairness in Hiring Contexts
- Title(参考訳): 巨大ナンバーズパイルは誰がベストか:雇用状況におけるフェアネスの分析
- Authors: Preethi Seshadri, Seraphina Goldfarb-Tarrant,
- Abstract要約: レースベースの違いは生成したサマリーの約10%に現れ、ジェンダーベースの違いは1%に過ぎなかった。
検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性問題は一般的な脆性問題に起因する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 5.111540255111445
- License:
- Abstract: Large language models (LLMs) are increasingly being deployed in high-stakes applications like hiring, yet their potential for unfair decision-making and outcomes remains understudied, particularly in generative settings. In this work, we examine the fairness of LLM-based hiring systems through two real-world tasks: resume summarization and retrieval. By constructing a synthetic resume dataset and curating job postings, we investigate whether model behavior differs across demographic groups and is sensitive to demographic perturbations. Our findings reveal that race-based differences appear in approximately 10% of generated summaries, while gender-based differences occur in only 1%. In the retrieval setting, all evaluated models display non-uniform selection patterns across demographic groups and exhibit high sensitivity to both gender and race-based perturbations. Surprisingly, retrieval models demonstrate comparable sensitivity to non-demographic changes, suggesting that fairness issues may stem, in part, from general brittleness issues. Overall, our results indicate that LLM-based hiring systems, especially at the retrieval stage, can exhibit notable biases that lead to discriminatory outcomes in real-world contexts.
- Abstract(参考訳): 大規模言語モデル(LLM)は、採用のような高度なアプリケーションにますますデプロイされているが、不公平な意思決定や結果の可能性を秘めている。
本研究では,LLMをベースとした雇用システムのフェアネスを,実世界の2つの課題である要約と検索の再開を通じて検証する。
人工履歴データセットの構築と求職の計算により、モデル行動が人口集団によって異なるか、人口変動に敏感かを検討する。
以上の結果から,人種による差は生成したサマリーの約10%にみられ,性別による差は1%に過ぎなかった。
検索設定では、すべての評価されたモデルは、人口集団間で一様でない選択パターンを示し、性別と人種に基づく摂動の両方に対して高い感度を示す。
驚くべきことに、検索モデルは非デデマグラフィー的変化に匹敵する感度を示し、公平性の問題の一部は一般的な脆性の問題から生じる可能性があることを示唆している。
以上の結果から,LLMベースの採用システム,特に検索段階では,実世界の文脈において差別的な結果をもたらす顕著なバイアスが生じる可能性が示唆された。
関連論文リスト
- Actions Speak Louder than Words: Agent Decisions Reveal Implicit Biases in Language Models [10.565316815513235]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートする際にも暗黙の偏見を示すことがある。
ほぼすべてのシミュレーションにおいて,最先端のLDMは社会デマトグラフィーの相違が顕著であることを示す。
実験結果と実世界の格差を比較すると、我々が発見したバイアスは方向整列されているが、顕著に増幅されていることがわかった。
論文 参考訳(メタデータ) (2025-01-29T05:21:31Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - The Root Shapes the Fruit: On the Persistence of Gender-Exclusive Harms in Aligned Language Models [58.130894823145205]
我々はトランスジェンダー、ノンバイナリ、その他のジェンダー・ディバースのアイデンティティを中心とし、アライメント手順が既存のジェンダー・ディバースバイアスとどのように相互作用するかを検討する。
以上の結果から,DPO対応モデルは特に教師付き微調整に敏感であることが示唆された。
DPOとより広範なアライメントプラクティスに合わせたレコメンデーションで締めくくります。
論文 参考訳(メタデータ) (2024-11-06T06:50:50Z) - GenderBias-\emph{VL}: Benchmarking Gender Bias in Vision Language Models via Counterfactual Probing [72.0343083866144]
本稿では,GenderBias-emphVLベンチマークを用いて,大規模視覚言語モデルにおける職業関連性バイアスの評価を行う。
ベンチマークを用いて15のオープンソースLVLMと最先端の商用APIを広範囲に評価した。
既存のLVLMでは男女差が広くみられた。
論文 参考訳(メタデータ) (2024-06-30T05:55:15Z) - JobFair: A Framework for Benchmarking Gender Hiring Bias in Large Language Models [12.12628747941818]
本稿では,Large Language Models (LLMs) における階層的ジェンダー採用バイアスのベンチマークを行うための新しいフレームワークを提案する。
我々は、労働経済学、法原則、現在のバイアスベンチマークの批判に根ざした新しい構成を導入する。
我々は、現在最先端の10のLCMにおける性別採用バイアスを分析する。
論文 参考訳(メタデータ) (2024-06-17T09:15:57Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Picking on the Same Person: Does Algorithmic Monoculture lead to Outcome
Homogenization? [90.35044668396591]
機械学習における繰り返しのテーマはアルゴリズムによるモノカルチャーである。同じシステム、またはコンポーネントを共有するシステムは、複数の意思決定者によってデプロイされる。
意思決定者がトレーニングデータや特定のモデルなどのコンポーネントを共有すれば、より均一な結果が得られます。
我々はこの仮説をアルゴリズムフェアネスベンチマークで検証し、トレーニングデータの共有がホモジェナイゼーションを確実に悪化させることを示した。
結果の均質化に関する哲学的分析と社会的な課題を、デプロイされた機械学習システムに含めることに着目して結論付ける。
論文 参考訳(メタデータ) (2022-11-25T09:33:11Z) - Deep Learning on a Healthy Data Diet: Finding Important Examples for
Fairness [15.210232622716129]
データ駆動予測ソリューションは、主に商用アプリケーションで使われているが、バイアスやステレオタイプに悩まされる傾向がある。
データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。
拡張データセットのいくつかの例は、公平性には重要でも有害でもないことを示します。
論文 参考訳(メタデータ) (2022-11-20T22:42:30Z) - Data Representativeness in Accessibility Datasets: A Meta-Analysis [7.6597163467929805]
障害のある人と高齢者が作成したデータセットをレビューする。
アクセシビリティデータセットは様々な年齢を表すが、性別と人種の差がある。
われわれの努力が、AIに注入されたシステムに、余分なコミュニティをもっと取り入れる可能性の空間を広げることを願っている。
論文 参考訳(メタデータ) (2022-07-16T23:32:19Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Enhancing Facial Data Diversity with Style-based Face Aging [59.984134070735934]
特に、顔データセットは、通常、性別、年齢、人種などの属性の観点からバイアスされる。
本稿では, 細粒度の老化パターンをキャプチャするデータ拡張のための, 生成スタイルに基づく新しいアーキテクチャを提案する。
提案手法は, 年齢移動のための最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-06T21:53:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。