論文の概要: Signal or Noise? Evaluating Large Language Models in Resume Screening Across Contextual Variations and Human Expert Benchmarks
- arxiv url: http://arxiv.org/abs/2507.08019v1
- Date: Tue, 08 Jul 2025 01:34:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.09552
- Title: Signal or Noise? Evaluating Large Language Models in Resume Screening Across Contextual Variations and Human Expert Benchmarks
- Title(参考訳): 信号か雑音か? 文脈変動と人間専門家のベンチマークによる再試行における大規模言語モデルの評価
- Authors: Aryan Varshney, Venkat Ram Reddy Ganuthula,
- Abstract要約: 本研究では,大規模言語モデル(LLM)がジョブ記述に対するスクリーニングを再開した場合に,一貫した動作(手話)やランダムな変動(雑音)を示すか否かを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This study investigates whether large language models (LLMs) exhibit consistent behavior (signal) or random variation (noise) when screening resumes against job descriptions, and how their performance compares to human experts. Using controlled datasets, we tested three LLMs (Claude, GPT, and Gemini) across contexts (No Company, Firm1 [MNC], Firm2 [Startup], Reduced Context) with identical and randomized resumes, benchmarked against three human recruitment experts. Analysis of variance revealed significant mean differences in four of eight LLM-only conditions and consistently significant differences between LLM and human evaluations (p < 0.01). Paired t-tests showed GPT adapts strongly to company context (p < 0.001), Gemini partially (p = 0.038 for Firm1), and Claude minimally (p > 0.1), while all LLMs differed significantly from human experts across contexts. Meta-cognition analysis highlighted adaptive weighting patterns that differ markedly from human evaluation approaches. Findings suggest LLMs offer interpretable patterns with detailed prompts but diverge substantially from human judgment, informing their deployment in automated hiring systems.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)がジョブ記述に対するスクリーニングを再開した場合に,一貫した行動(信号)やランダムな変動(雑音)を示すか,その性能が人的専門家とどのように比較されるかを検討する。
制御されたデータセットを用いて、3つのLCM(Claude, GPT, Gemini)のコンテキスト(No Company, Firm1 [MNC], Firm2 [Startup], Reduced Context)を同一かつランダムな履歴書でテストし、3人の採用専門家に対してベンチマークした。
8条件中4条件で有意な平均差がみられ, LLMとヒト評価の連続的な有意差が認められた(p < 0.01)。
Paired t-tests showed GPT adapts to company context (p < 0.001), Gemini partial (p = 0.038 for Firm1), Claude minimally (p > 0.1), and all LLMs different different from human expert across contexts。
メタ認知分析では,人間の評価手法とは大きく異なる適応重み付けパターンが強調された。
LLMは詳細なプロンプトを持つ解釈可能なパターンを提供するが、人間による判断から大きく切り離され、自動化された採用システムへの展開が通知される。
関連論文リスト
- Evaluating Large Language Models (LLMs) in Financial NLP: A Comparative Study on Financial Report Analysis [0.0]
大規模言語モデル(LLM)は、さまざまな金融自然言語処理(FinNLP)タスクで顕著な機能を示している。
本研究は,5つのLLM,GPT,Claude,Perplexity,Gemini,DeepSeekの総合的な比較評価を行う。
論文 参考訳(メタデータ) (2025-07-24T20:10:27Z) - Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-22T03:08:27Z) - No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language Models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。
我々は,中小LLMの集合を用いてベンチマークを統一的に評価する。
バイアス検出タスクをバイアスの異なる側面で行うための5つのプロンプト手法を提案する。
その結果, 選択したLLMは, Phi-3.5Bモデルが最も偏りが少ないため, いずれか一方あるいは他方の偏りに悩まされることが示唆された。
論文 参考訳(メタデータ) (2025-03-15T03:58:14Z) - Fine-Tuning Language Models for Ethical Ambiguity: A Comparative Study of Alignment with Human Responses [1.566834021297545]
言語モデルは曖昧さを扱うため、人間の意図を誤解することが多い。
道徳的にあいまいな文脈では人間とLLMの判断が不十分であることを示す。
テキスト・トゥ・テキスト・フォーマットにおけるモデルによるテキスト・配信の理解を改善するための微調整手法により、性能とアライメントを効果的に向上する。
論文 参考訳(メタデータ) (2024-10-10T11:24:04Z) - CEB: Compositional Evaluation Benchmark for Fairness in Large Language Models [58.57987316300529]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクを処理するために、ますます多くデプロイされている。
LLMが示すバイアスを評価するために、研究者は最近、様々なデータセットを提案している。
我々は,様々な社会的グループやタスクにまたがる様々なバイアスをカバーした構成的評価ベンチマークであるCEBを提案する。
論文 参考訳(メタデータ) (2024-07-02T16:31:37Z) - Sample-Efficient Human Evaluation of Large Language Models via Maximum Discrepancy Competition [38.822535662755314]
大規模言語モデル(LLM)のためのサンプル効率のよい人的評価手法を提案する。
提案手法は,LLM応答のペア間のセマンティックな差異を最大化する,コンパクトな入力命令セットを自動的に適応的に選択する。
人間の評価者は、これらのペア化された反応に対して3つの代替的な選択を行い、エロ評価を用いてグローバルなランキングに集約される。
論文 参考訳(メタデータ) (2024-04-10T01:26:24Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。
LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文 参考訳(メタデータ) (2023-01-31T18:46:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。