Fugu-MT 論文翻訳(概要): Auditing the Use of Language Models to Guide Hiring Decisions

論文の概要: Auditing the Use of Language Models to Guide Hiring Decisions

arxiv url: http://arxiv.org/abs/2404.03086v1
Date: Wed, 3 Apr 2024 22:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 16:22:48.171201
Title: Auditing the Use of Language Models to Guide Hiring Decisions
Title（参考訳）: 言語モデルを用いた採用決定の指導
Authors: Johann D. Gaebler, Sharad Goel, Aziz Huq, Prasanna Tambe,
Abstract要約: アルゴリズムバイアスから保護するための規制努力は、大規模言語モデルで急速に進歩した緊急性を高めている。現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。本稿では,監査アルゴリズムの1つのアプローチとして,対応実験を提案する。
参考スコア（独自算出の注目度）: 2.949890760187898
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Regulatory efforts to protect against algorithmic bias have taken on increased urgency with rapid advances in large language models (LLMs), which are machine learning models that can achieve performance rivaling human experts on a wide array of tasks. A key theme of these initiatives is algorithmic "auditing," but current regulations -- as well as the scientific literature -- provide little guidance on how to conduct these assessments. Here we propose and investigate one approach for auditing algorithms: correspondence experiments, a widely applied tool for detecting bias in human judgements. In the employment context, correspondence experiments aim to measure the extent to which race and gender impact decisions by experimentally manipulating elements of submitted application materials that suggest an applicant's demographic traits, such as their listed name. We apply this method to audit candidate assessments produced by several state-of-the-art LLMs, using a novel corpus of applications to K-12 teaching positions in a large public school district. We find evidence of moderate race and gender disparities, a pattern largely robust to varying the types of application material input to the models, as well as the framing of the task to the LLMs. We conclude by discussing some important limitations of correspondence experiments for auditing algorithms.
Abstract（参考訳）: アルゴリズムバイアスから保護するための規制努力は、大規模言語モデル(LLM)の急速な進歩により緊急度を高めている。これらのイニシアティブの重要なテーマは、アルゴリズムによる「監査」であるが、現在の規制と科学文献は、これらの評価の実施方法に関するガイダンスをほとんど提供していない。本稿では,人間の判断におけるバイアスを検出する手段として広く利用されている対応実験という,監査アルゴリズムの1つのアプローチを提案し,検討する。雇用の文脈では、求職申告書の要素を実験的に操作し、求職者の年齢特性、例えばその名前等を推定することで、人種や性別がどのような決定に影響を及ぼすかを測定することを目的としている。本手法は,大規模公立学区におけるK-12教職の新規なコーパスを用いた,最先端のLLMによる候補評価に応用する。我々は、中等人種と男女格差の証拠を見出した。このパターンは、モデルに入力される応用材料の種類や、LLMへのタスクのフレーミングを、ほとんど確実に変化させる。我々は、監査アルゴリズムにおける対応実験のいくつかの重要な制限について論じる。

関連論文リスト

An experimental survey and Perspective View on Meta-Learning for Automated Algorithms Selection and Parametrization [0.0]
我々は、この継続的な発展途上の分野における芸術の状況について概観する。 AutoMLは、高度な分析を適用することに興味があるドメイン科学者が機械学習技術にアクセスできるようにする。
論文参考訳（メタデータ） (2025-04-08T16:51:22Z)
Multi-Agent LLM Judge: automatic personalized LLM judge design for evaluating natural language generation applications [0.0]
大規模言語モデル(LLM)は、さまざまなドメインにまたがって素晴らしいパフォーマンスを示しているが、ドメイン固有の知識の不足、バイアス、幻覚といった問題に直面している。単語重複やテキスト埋め込みに依存する従来の評価手法は、動的でオープンなテキスト生成を評価するのに必要なニュアンスドセマンティック情報を取得するには不十分である。本稿では,様々な自然言語生成アプリケーション向けにパーソナライズされたLLM判断器を自動設計する動的マルチエージェントシステムを提案する。
論文参考訳（メタデータ） (2025-04-01T09:36:56Z)
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
Whither Bias Goes, I Will Go: An Integrative, Systematic Review of Algorithmic Bias Mitigation [1.0470286407954037]
機械学習(ML)モデルは不平等をバイアスし、持続し、悪化させる可能性があるという懸念が高まっている。本稿では,MLアセスメントを開発し,バイアス軽減手法を適用した4段階モデルを提案する。
論文参考訳（メタデータ） (2024-10-21T02:32:14Z)
Are Large Language Models Good Classifiers? A Study on Edit Intent Classification in Scientific Document Revisions [62.12545440385489]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩をもたらしたが、分類タスクの強化の可能性はまだ未検討である。生成と符号化の両方のアプローチを含む分類のための微調整LDMを徹底的に研究するためのフレームワークを提案する。我々はこのフレームワークを編集意図分類(EIC)においてインスタンス化する。
論文参考訳（メタデータ） (2024-10-02T20:48:28Z)
Entity Extraction from High-Level Corruption Schemes via Large Language Models [4.820586736502356]
本稿では,ニュース記事中の個人や組織を識別するアルゴリズムとモデルのための,新しいマイクロベンチマークデータセットを提案する。このデータセットを用いて、金融犯罪関連記事の個人や組織を特定するための実験的な取り組みも報告されている。
論文参考訳（メタデータ） (2024-09-05T10:27:32Z)
Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文参考訳（メタデータ） (2024-06-25T20:52:31Z)
Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文参考訳（メタデータ） (2024-04-08T14:15:56Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)
Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文参考訳（メタデータ） (2023-10-09T07:27:15Z)
Active Learning Principles for In-Context Learning with Large Language Models [65.09970281795769]
本稿では,アクティブ・ラーニング・アルゴリズムが,文脈内学習における効果的な実演選択手法としてどのように機能するかを検討する。 ALによる文脈内サンプル選択は,不確実性の低い高品質な事例を優先し,試験例と類似性を有することを示す。
論文参考訳（メタデータ） (2023-05-23T17:16:04Z)
Evaluating the Performance of Large Language Models on GAOKAO Benchmark [53.663757126289795]
本稿では,中国のガオカオ検定の質問をサンプルとして用いた直感的なベンチマークであるガオカオベンチについて紹介する。人間の評価により, GPT-4, ChatGPT, ERNIE-Botを含むLLMの変換総得点を得た。また、LLMを用いて主観的質問を格付けし、モデルスコアが人間のスコアと適度な一貫性を達成することを確認する。
論文参考訳（メタデータ） (2023-05-21T14:39:28Z)
BAD: BiAs Detection for Large Language Models in the context of candidate screening [6.47452771256903]
本研究の目的は、ChatGPTや他のOpenAI LLMにおける社会的偏見の事例を候補検定の文脈で定量化することである。これらのモデルの使用が、採用プロセスにおける既存のバイアスや不平等を持続させる方法を示します。
論文参考訳（メタデータ） (2023-05-17T17:47:31Z)
Perspectives on Large Language Models for Relevance Judgment [56.935731584323996]
大型言語モデル(LLM)は、関連判断を支援することができると主張している。自動判定が検索システムの評価に確実に利用できるかどうかは不明である。
論文参考訳（メタデータ） (2023-04-13T13:08:38Z)
Individual Explanations in Machine Learning Models: A Survey for Practitioners [69.02688684221265]
社会的関連性の高い領域の決定に影響を与える洗練された統計モデルの使用が増加しています。多くの政府、機関、企業は、アウトプットが人間の解釈可能な方法で説明しにくいため、採用に消極的です。近年,機械学習モデルに解釈可能な説明を提供する方法として,学術文献が多数提案されている。
論文参考訳（メタデータ） (2021-04-09T01:46:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。