論文の概要: Auditing the Use of Language Models to Guide Hiring Decisions
- arxiv url: http://arxiv.org/abs/2404.03086v1
- Date: Wed, 3 Apr 2024 22:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-05 16:22:48.171201
- Title: Auditing the Use of Language Models to Guide Hiring Decisions
- Title(参考訳): 言語モデルを用いた採用決定の指導
- Authors: Johann D. Gaebler, Sharad Goel, Aziz Huq, Prasanna Tambe,
- Abstract要約: アルゴリズムバイアスから保護するための規制努力は、大規模言語モデルで急速に進歩した緊急性を高めている。
現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。
本稿では,監査アルゴリズムの1つのアプローチとして,対応実験を提案する。
- 参考スコア(独自算出の注目度): 2.949890760187898
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Regulatory efforts to protect against algorithmic bias have taken on increased urgency with rapid advances in large language models (LLMs), which are machine learning models that can achieve performance rivaling human experts on a wide array of tasks. A key theme of these initiatives is algorithmic "auditing," but current regulations -- as well as the scientific literature -- provide little guidance on how to conduct these assessments. Here we propose and investigate one approach for auditing algorithms: correspondence experiments, a widely applied tool for detecting bias in human judgements. In the employment context, correspondence experiments aim to measure the extent to which race and gender impact decisions by experimentally manipulating elements of submitted application materials that suggest an applicant's demographic traits, such as their listed name. We apply this method to audit candidate assessments produced by several state-of-the-art LLMs, using a novel corpus of applications to K-12 teaching positions in a large public school district. We find evidence of moderate race and gender disparities, a pattern largely robust to varying the types of application material input to the models, as well as the framing of the task to the LLMs. We conclude by discussing some important limitations of correspondence experiments for auditing algorithms.
- Abstract(参考訳): アルゴリズムバイアスから保護するための規制努力は、大規模言語モデル(LLM)の急速な進歩により緊急度を高めている。
これらのイニシアティブの重要なテーマは、アルゴリズムによる「監査」であるが、現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。
本稿では,人間の判断におけるバイアスを検出する手段として広く利用されている対応実験という,監査アルゴリズムの1つのアプローチを提案し,検討する。
雇用の文脈では、求職申告書の要素を実験的に操作し、求職者の年齢特性、例えばその名前等を推定することで、人種や性別がどのような決定に影響を及ぼすかを測定することを目的としている。
本手法は,大規模公立学区におけるK-12教職の新規なコーパスを用いた,最先端のLLMによる候補評価に応用する。
我々は、中等人種と男女格差の証拠を見出した。このパターンは、モデルに入力される応用材料の種類や、LLMへのタスクのフレーミングを、ほとんど確実に変化させる。
我々は、監査アルゴリズムにおける対応実験のいくつかの重要な制限について論じる。
関連論文リスト
- Enhancing Robotic Manipulation with AI Feedback from Multimodal Large
Language Models [41.38520841504846]
大規模言語モデル(LLM)は、画像入力から意思決定のガイドまで、自動的な好みフィードバックを提供する。
本研究では,ロボット操作作業における軌跡映像の理解が可能なマルチモーダルLLMであるCriticGPTを訓練する。
アルゴリズムの選好精度を実験的に評価すると、新しいタスクに対する効果的な一般化能力が示される。
Meta-Worldタスクのパフォーマンスは、CriticGPTの報酬モデルが、最先端の事前訓練された表現モデルに基づいて報酬を越え、ポリシー学習を効率的に導くことを示している。
論文 参考訳(メタデータ) (2024-02-22T03:14:03Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z) - A Large Language Model Approach to Educational Survey Feedback Analysis [0.0]
本稿では,大規模言語モデル(LLM) GPT-4 と GPT-3.5 が教育フィードバック調査から洞察を得るのに役立つ可能性について検討する。
論文 参考訳(メタデータ) (2023-09-29T17:57:23Z) - Toward Operationalizing Pipeline-aware ML Fairness: A Research Agenda
for Developing Practical Guidelines and Tools [18.513353100744823]
最近の研究はMLコミュニティに対して、公平な問題に取り組むためにより包括的なアプローチを取るように呼びかけている。
まず、明確なガイドラインやツールキットがなければ、特殊なML知識を持つ個人でさえ、さまざまな設計選択がモデル行動にどのように影響するかを仮説化することは困難である。
次に、パイプライン対応アプローチの運用に向けた現在の進捗を理解するために、フェアMLの文献を参考にします。
論文 参考訳(メタデータ) (2023-09-29T15:48:26Z) - Active Learning Principles for In-Context Learning with Large Language
Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。
ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文 参考訳(メタデータ) (2023-05-23T17:16:04Z) - Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。
人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。
また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文 参考訳(メタデータ) (2023-05-21T14:39:28Z) - BAD: BiAs Detection for Large Language Models in the context of
candidate screening [6.47452771256903]
本研究の目的は、ChatGPTや他のOpenAI LLMにおける社会的偏見の事例を候補検定の文脈で定量化することである。
これらのモデルの使用が、採用プロセスにおける既存のバイアスや不平等を持続させる方法を示します。
論文 参考訳(メタデータ) (2023-05-17T17:47:31Z) - Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。
自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文 参考訳(メタデータ) (2023-04-13T13:08:38Z) - Competence-Based Analysis of Language Models [24.09077801383941]
大規模で事前訓練されたニューラルネットワークモデル(LLM)は、入力やアプリケーションコンテキストの小さな変更に対して、驚くほど脆弱である。
当社の枠組みであるCALMは,LCM能力の最初の定量的尺度である。
我々は,勾配に基づく対向攻撃を用いた因果探究介入を行うための新しい手法を開発した。
論文 参考訳(メタデータ) (2023-03-01T08:53:36Z) - Individual Explanations in Machine Learning Models: A Survey for
Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。
多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。
近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文 参考訳(メタデータ) (2021-04-09T01:46:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。