Fugu-MT 論文翻訳(概要): Measuring Validity in LLM-based Resume Screening

論文の概要: Measuring Validity in LLM-based Resume Screening

arxiv url: http://arxiv.org/abs/2602.18550v1
Date: Fri, 20 Feb 2026 18:57:52 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.159194
Title: Measuring Validity in LLM-based Resume Screening
Title（参考訳）: LLMを用いた再試薬スクリーニングにおける妥当性の測定
Authors: Jane Castleman, Zeyu Shen, Blossom Metevier, Max Springer, Aleksandra Korolova,
Abstract要約: 我々は、特定のジョブに適した履歴書の大規模なデータセットを構築し、それは、既知の優越性の基底真理と直接的に同等である。次に、構築したデータセットを用いて、様々なLCMによるランキング決定の有効性を測定する。等級の候補をランク付けする際、モデルが確実に棄権せず、異なる割合で異なる人口集団の候補者を選択することが判明した。
参考スコア（独自算出の注目度）: 45.886624898999145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Resume screening is perceived as a particularly suitable task for LLMs given their ability to analyze natural language; thus many entities rely on general purpose LLMs without further adapting them to the task. While researchers have shown that some LLMs are biased in their selection rates of different demographics, studies measuring the validity of LLM decisions are limited. One of the difficulties in externally measuring validity stems from lack of access to a large corpus of resumes for whom the ground truth in their ranking is known and that has not already been used for LLM training. In this work, we overcome this challenge by systematically constructing a large dataset of resumes tailored to particular jobs that are directly comparable, with a known ground truth of superiority. We then use the constructed dataset to measure the validity of ranking decisions made by various LLMs, finding that many models are unable to consistently select the resumes describing more qualified candidates. Furthermore, when measuring the validity of decisions, we find that models do not reliably abstain when ranking equally-qualified candidates, and select candidates from different demographic groups at different rates, occasionally prioritizing historically-marginalized candidates. Our proposed framework provides a principled approach to audit LLM resume screeners in the absence of ground truth, offering a crucial tool to independent auditors and developers to ensure the validity of these systems as they are deployed.
Abstract（参考訳）: 再帰的スクリーニングは自然言語を解析する能力を考えると、LLMにとって特に適したタスクであると考えられており、多くのエンティティはそれらのタスクにさらに適応することなく汎用のLLMに依存している。研究者は、いくつかのLSMは異なる人口層の選択率に偏っていることを示したが、LSMの決定の有効性を測定する研究は限られている。妥当性を外部で測定することの難しさの1つは、そのランキングの根底にある真実が知られており、既にLLMトレーニングに使われていない履歴書の大規模なコーパスにアクセスできないことにある。本研究では,この課題を克服するために,直接的に比較可能な特定のジョブに適した履歴書の大規模なデータセットを体系的に構築する。次に、構築されたデータセットを用いて、様々なLCMによるランキング決定の妥当性を測定し、多くのモデルが、より適格な候補を記述する履歴を一貫して選択できないことを発見した。さらに、決定の妥当性を測る際、同格候補のランク付け時にモデルを確実に棄却せず、異なる人口集団の候補者を異なる割合で選別し、時には歴史的に婚姻した候補者を優先順位付けする。提案するフレームワークは,LLMレビュアーを検査する上で基本的手法であり,独立した監査者や開発者に対して,デプロイ中のシステムの有効性を確保するための重要なツールを提供する。

関連論文リスト

LLM-Specific Utility: A New Perspective for Retrieval-Augmented Generation [110.610512800947]
Retrieval-augmented Generation (RAG)は、外部知識を取り入れた大規模言語モデル(LLM)を強化する。既存の研究はしばしばユーティリティをジェネリック属性として扱い、異なるLLMが同じ通路から異なる利益をもたらすという事実を無視している。
論文参考訳（メタデータ） (2025-10-13T12:57:45Z)
AI Self-preferencing in Algorithmic Hiring: Empirical Evidence and Insights [0.0611737116137921]
大規模言語モデル (LLM) は人書き履歴書よりも, 自己生成したコンテンツを体系的に好んでいることを示す。このバイアスは、LSMの自己認識能力をターゲットにした単純な介入によって50%以上削減することができる。これらの調査結果は、AIによる意思決定における、新しくて見過ごされたリスクを浮き彫りにしている。
論文参考訳（メタデータ） (2025-08-30T11:40:11Z)
Evaluating how LLM annotations represent diverse views on contentious topics [3.405231040967506]
生成型大規模言語モデル (LLM) は, 同一データセット内の同じ階層カテゴリーにおいて, 同一方向のバイアスを受ける傾向があることを示す。自動データアノテーションタスクにLLMを用いた研究者や実践者にとっての意義について論じる。
論文参考訳（メタデータ） (2025-03-29T22:53:15Z)
Truth or Mirage? Towards End-to-End Factuality Evaluation with LLM-Oasis [78.07225438556203]
LLM-Oasisは、エンド・ツー・エンドの事実性評価をトレーニングするための最大のリソースである。ウィキペディアからクレームを抽出し、これらのクレームのサブセットを偽造し、事実と非事実のテキストのペアを生成することで構築される。次に、データセットの品質を検証し、事実性評価システムのための金の標準テストセットを作成するために、人間のアノテータに依存します。
論文参考訳（メタデータ） (2024-11-29T12:21:15Z)
LLM-Forest: Ensemble Learning of LLMs with Graph-Augmented Prompts for Data Imputation [50.375567142250446]
巨大なコーパスで訓練された大規模言語モデル(LLM)は、データ生成に強い可能性を示している。我々は,信頼度に基づく重み付け投票によって出力を集約した,数発のプロンプト学習 LLM ツリーの "フォレスト" を導入した新しいフレームワーク LLM-Forest を提案する。このフレームワークは、2部情報グラフという新しい概念に基づいて構築され、特徴と値の粒度の両方で高品質な関連項目を識別する。
論文参考訳（メタデータ） (2024-10-28T20:42:46Z)
PRISM: A Methodology for Auditing Biases in Large Language Models [9.751718230639376]
PRISMは、大規模言語モデルを監査するための柔軟な調査ベースの方法論である。優先事項を直接調査するのではなく、タスクベースの調査を通じて間接的にこれらのポジションを照会しようとする。
論文参考訳（メタデータ） (2024-10-24T16:57:20Z)
Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文参考訳（メタデータ） (2024-10-03T17:53:30Z)
To Know or Not To Know? Analyzing Self-Consistency of Large Language Models under Ambiguity [27.10502683001428]
本稿では, 実体型あいまいさに着目し, 不明瞭な実体を刺激した場合の事実知識の適用において, 最先端のLCMの習熟度と一貫性を解析する。実験の結果、LLMは正しいエンティティの読み取りを選択するのに苦労し、平均精度は85%、未特定のプロンプトで75%と低いことがわかった。
論文参考訳（メタデータ） (2024-07-24T09:48:48Z)
Direct-Inverse Prompting: Analyzing LLMs' Discriminative Capacity in Self-Improving Generation [15.184067502284007]
もっとも先進的なLCMでさえ出力の不確実性を経験しており、異なるランニングや入力の微妙な変化に直面した時に、しばしば様々な結果を生み出す。我々は,直接,逆,ハイブリッドの3つの識別的プロンプトを提案し,分析する。私たちの洞察は、どの差別的プロンプトが最も有望か、いつ使うかを明らかにします。
論文参考訳（メタデータ） (2024-06-27T02:26:47Z)
Survey on Factuality in Large Language Models: Knowledge, Retrieval and Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。 LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文参考訳（メタデータ） (2023-10-11T14:18:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。