論文の概要: Measuring Validity in LLM-based Resume Screening
- arxiv url: http://arxiv.org/abs/2602.18550v1
- Date: Fri, 20 Feb 2026 18:57:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.159194
- Title: Measuring Validity in LLM-based Resume Screening
- Title(参考訳): LLMを用いた再試薬スクリーニングにおける妥当性の測定
- Authors: Jane Castleman, Zeyu Shen, Blossom Metevier, Max Springer, Aleksandra Korolova,
- Abstract要約: 我々は、特定のジョブに適した履歴書の大規模なデータセットを構築し、それは、既知の優越性の基底真理と直接的に同等である。
次に、構築したデータセットを用いて、様々なLCMによるランキング決定の有効性を測定する。
等級の候補をランク付けする際、モデルが確実に棄権せず、異なる割合で異なる人口集団の候補者を選択することが判明した。
- 参考スコア(独自算出の注目度): 45.886624898999145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Resume screening is perceived as a particularly suitable task for LLMs given their ability to analyze natural language; thus many entities rely on general purpose LLMs without further adapting them to the task. While researchers have shown that some LLMs are biased in their selection rates of different demographics, studies measuring the validity of LLM decisions are limited. One of the difficulties in externally measuring validity stems from lack of access to a large corpus of resumes for whom the ground truth in their ranking is known and that has not already been used for LLM training. In this work, we overcome this challenge by systematically constructing a large dataset of resumes tailored to particular jobs that are directly comparable, with a known ground truth of superiority. We then use the constructed dataset to measure the validity of ranking decisions made by various LLMs, finding that many models are unable to consistently select the resumes describing more qualified candidates. Furthermore, when measuring the validity of decisions, we find that models do not reliably abstain when ranking equally-qualified candidates, and select candidates from different demographic groups at different rates, occasionally prioritizing historically-marginalized candidates. Our proposed framework provides a principled approach to audit LLM resume screeners in the absence of ground truth, offering a crucial tool to independent auditors and developers to ensure the validity of these systems as they are deployed.
- Abstract(参考訳): 再帰的スクリーニングは自然言語を解析する能力を考えると、LLMにとって特に適したタスクであると考えられており、多くのエンティティはそれらのタスクにさらに適応することなく汎用のLLMに依存している。
研究者は、いくつかのLSMは異なる人口層の選択率に偏っていることを示したが、LSMの決定の有効性を測定する研究は限られている。
妥当性を外部で測定することの難しさの1つは、そのランキングの根底にある真実が知られており、既にLLMトレーニングに使われていない履歴書の大規模なコーパスにアクセスできないことにある。
本研究では,この課題を克服するために,直接的に比較可能な特定のジョブに適した履歴書の大規模なデータセットを体系的に構築する。
次に、構築されたデータセットを用いて、様々なLCMによるランキング決定の妥当性を測定し、多くのモデルが、より適格な候補を記述する履歴を一貫して選択できないことを発見した。
さらに、決定の妥当性を測る際、同格候補のランク付け時にモデルを確実に棄却せず、異なる人口集団の候補者を異なる割合で選別し、時には歴史的に婚姻した候補者を優先順位付けする。
提案するフレームワークは,LLMレビュアーを検査する上で基本的手法であり,独立した監査者や開発者に対して,デプロイ中のシステムの有効性を確保するための重要なツールを提供する。
関連論文リスト
- LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。
既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
論文 参考訳(メタデータ) (2025-10-13T12:57:45Z) - AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights [0.0611737116137921]
大規模言語モデル (LLM) は人書き履歴書よりも, 自己生成したコンテンツを体系的に好んでいることを示す。
このバイアスは、LSMの自己認識能力をターゲットにした単純な介入によって50%以上削減することができる。
これらの調査結果は、AIによる意思決定における、新しくて見過ごされたリスクを浮き彫りにしている。
論文 参考訳(メタデータ) (2025-08-30T11:40:11Z) - Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。
ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。
次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文 参考訳(メタデータ) (2024-11-29T12:21:15Z) - PRISM: A Methodology for Auditing Biases in Large Language Models [9.751718230639376]
PRISMは、大規模言語モデルを監査するための柔軟な調査ベースの方法論である。
優先事項を直接調査するのではなく、タスクベースの調査を通じて間接的にこれらのポジションを照会しようとする。
論文 参考訳(メタデータ) (2024-10-24T16:57:20Z) - To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。
実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文 参考訳(メタデータ) (2024-07-24T09:48:48Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。