論文の概要: Bias in the Tails: How Name-conditioned Evaluative Framing in Resume Summaries Destabilizes LLM-based Hiring
- arxiv url: http://arxiv.org/abs/2604.19984v1
- Date: Tue, 21 Apr 2026 20:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:10.841809
- Title: Bias in the Tails: How Name-conditioned Evaluative Framing in Resume Summaries Destabilizes LLM-based Hiring
- Title(参考訳): タオルにおけるバイアス:レサムサマリーにおける名前条件評価フレームがLCMベースの雇用を不安定化する方法
- Authors: Huy Nghiem, Phuong-Anh Nguyen-Le, Sy-Tuyen Ho, Hal Daume,
- Abstract要約: 我々は,4つのモデルが生成する100万近い履歴サマリーを,系統的なレース・ジェンダー名の摂動の下で解析する。
実際の内容はほとんど安定しているが、評価言語は分布の極端に集中した微妙な名前条件の変化を示す。
- 参考スコア(独自算出の注目度): 7.943872490641589
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research has documented LLMs' name-based bias in hiring and salary recommendations. In this paper, we instead consider a setting where LLMs generate candidate summaries for downstream assessment. In a large-scale controlled study, we analyze nearly one million resume summaries produced by 4 models under systematic race-gender name perturbations, using synthetic resumes and real-world job postings. By decomposing each summary into resume-grounded factual content and evaluative framing, we find that factual content remains largely stable, while evaluative language exhibits subtle name-conditioned variation concentrated in the extremes of the distribution, especially in open-source models. Our hiring simulation demonstrates how evaluative summary transforms directional harm into symmetric instability that might evade conventional fairness audit, highlighting a potential pathway for LLM-to-LLM automation bias.
- Abstract(参考訳): 研究はLLMの名前に基づく雇用と給与のレコメンデーションの偏見を文書化している。
本稿では,LLMが下流アセスメントのための候補要約を生成する環境について考察する。
大規模に制御された研究では、4つのモデルが生成する約100万の履歴書を、総合的な履歴書と実世界の求職情報を用いて、系統的なレース・ジェンダー名の摂動の下で分析する。
それぞれの要約を再帰的な事実コンテンツと評価フレーミングに分解することにより、事実コンテンツはほぼ安定であり、評価言語は、特にオープンソースモデルにおいて、分布の極端に集中した微妙な名前条件のバリエーションを示す。
我々の雇用シミュレーションは、評価的要約が、従来のフェアネス監査を回避し、LCMからLLMへの自動化バイアスの潜在的経路を浮き彫りにするであろう対称的不安定性にどのように変換するかを示す。
関連論文リスト
- Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education [8.235367170516769]
大規模言語モデル(LLM)は、求職履歴書と候補履歴書を一致させることで、採用を自動化する能力を提供する。
しかし、これらのモデルに固有のバイアスは、不公平な雇用慣行をもたらし、社会的偏見を強化し、職場の多様性を損なう可能性がある。
本研究は、英語と米国の文脈における求人マッチングタスクにおけるLLMの性能と公平性について検討する。
論文 参考訳(メタデータ) (2025-03-24T22:11:22Z) - Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。
我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。
我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文 参考訳(メタデータ) (2024-02-18T03:10:39Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Self-Supervised Position Debiasing for Large Language Models [39.261233221850155]
大規模言語モデル(LLM)における位置バイアスを軽減するための自己教師型位置偏差検出(SOD)フレームワークを提案する。
8つのデータセットと5つのタスクの実験により、SODは3つのタイプの位置バイアスを緩和する既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-01-02T14:12:41Z) - Benchmarking Generation and Evaluation Capabilities of Large Language Models for Instruction Controllable Summarization [132.25202059478065]
命令制御可能なテキスト要約の大規模言語モデル(LLM)をベンチマークする。
本研究は,LLMにおいて,命令制御可能なテキスト要約が依然として困難な課題であることを示す。
論文 参考訳(メタデータ) (2023-11-15T18:25:26Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。