論文の概要: Evaluating LLM Behavior in Hiring: Implicit Weights, Fairness Across Groups, and Alignment with Human Preferences
- arxiv url: http://arxiv.org/abs/2601.11379v1
- Date: Fri, 16 Jan 2026 15:38:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.54149
- Title: Evaluating LLM Behavior in Hiring: Implicit Weights, Fairness Across Groups, and Alignment with Human Preferences
- Title(参考訳): 雇用におけるLCM行動の評価:無害体重、集団間の公正度、および人間の嗜好との整合性
- Authors: Morgane Hoffmann, Emma Jouffroy, Warren Jouanneau, Marc Palyart, Charles Pebereau,
- Abstract要約: 採用におけるLCMの決定ロジックを評価するための枠組みを提案する。
我々は、実際のフリーランサープロファイルから合成データセットを構築し、ヨーロッパの主要オンラインフリーランサーマーケットプレースからプロジェクト記述を作成します。
LLMがどの属性を優先するかを特定し、これらの重みがプロジェクトコンテキストや人口構成サブグループによってどのように異なるかを分析する。
- 参考スコア(独自算出の注目度): 0.8155575318208629
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-purpose Large Language Models (LLMs) show significant potential in recruitment applications, where decisions require reasoning over unstructured text, balancing multiple criteria, and inferring fit and competence from indirect productivity signals. Yet, it is still uncertain how LLMs assign importance to each attribute and whether such assignments are in line with economic principles, recruiter preferences or broader societal norms. We propose a framework to evaluate an LLM's decision logic in recruitment, by drawing on established economic methodologies for analyzing human hiring behavior. We build synthetic datasets from real freelancer profiles and project descriptions from a major European online freelance marketplace and apply a full factorial design to estimate how a LLM weighs different match-relevant criteria when evaluating freelancer-project fit. We identify which attributes the LLM prioritizes and analyze how these weights vary across project contexts and demographic subgroups. Finally, we explain how a comparable experimental setup could be implemented with human recruiters to assess alignment between model and human decisions. Our findings reveal that the LLM weighs core productivity signals, such as skills and experience, but interprets certain features beyond their explicit matching value. While showing minimal average discrimination against minority groups, intersectional effects reveal that productivity signals carry different weights between demographic groups.
- Abstract(参考訳): 汎用大規模言語モデル(LLM)は、非構造化テキストの推論、複数の基準のバランス、間接的生産性信号からの適合性と能力の推測など、採用アプリケーションにおいて大きな可能性を示す。
しかし、LLMがそれぞれの属性にどのように重要性を割り当てているのか、そのような課題が経済原則や採用者の選好、より広範な社会的規範に合致しているかは、いまだに不明である。
本研究では,雇用行動分析の確立した経済手法を参考に,人材採用におけるLCMの意思決定ロジックを評価する枠組みを提案する。
我々は、欧州の主要オンラインフリーランスマーケットプレースから、実際のフリーランサープロファイルとプロジェクト記述から合成データセットを構築し、LLMがフリーランサープロジェクトの適合性を評価する際に、どのように異なるマッチ関連基準を重み付けしているかを推定するために、フルファクター設計を適用した。
LLMがどの属性を優先するかを特定し、これらの重みがプロジェクトコンテキストや人口構成サブグループによってどのように異なるかを分析する。
最後に、モデルと人的決定の整合性を評価するために、人間の採用者と同等の実験的なセットアップをどのように実装するかを説明します。
以上の結果から,LLMは,スキルや経験など,中核的な生産性のシグナルを重み付けしていることがわかった。
少数民族に対する平均的な差別は最小限であるが、交叉効果は、生産性のシグナルが人口集団間で異なる重みを持つことを示している。
関連論文リスト
- Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making [0.030586855806896043]
大規模言語モデル(LLM)は、社会科学シミュレーションでますます使われている。
本研究では,LLMエージェントが外部誘導と人為的ノイズのレベルが異なる条件下でどのように適応するかを検討するためのプロセス指向評価フレームワークを提案する。
LLMは、デフォルトでは、観察された人間の行動から分岐する安定的で保守的な戦略に収束する。
論文 参考訳(メタデータ) (2025-08-21T18:55:53Z) - Alignment Revisited: Are Large Language Models Consistent in Stated and Revealed Preferences? [5.542420010310746]
批判的だが、未調査の問題は、LLMが明記した嗜好と明らかにした嗜好との潜在的な相違である。
この研究は正式に定義され、この選好偏差を測定する方法を提案する。
我々の研究は、LDMをサービス、特に人間と直接対話するサービスに統合するために不可欠です。
論文 参考訳(メタデータ) (2025-05-31T23:38:48Z) - Evaluating Bias in LLMs for Job-Resume Matching: Gender, Race, and Education [8.235367170516769]
大規模言語モデル(LLM)は、求職履歴書と候補履歴書を一致させることで、採用を自動化する能力を提供する。
しかし、これらのモデルに固有のバイアスは、不公平な雇用慣行をもたらし、社会的偏見を強化し、職場の多様性を損なう可能性がある。
本研究は、英語と米国の文脈における求人マッチングタスクにおけるLLMの性能と公平性について検討する。
論文 参考訳(メタデータ) (2025-03-24T22:11:22Z) - Distributive Fairness in Large Language Models: Evaluating Alignment with Human Values [13.798198972161657]
多くの社会的問題は資源の分配に関係しており、公平さと経済効率は結果の望ましさにおいて重要な役割を担っている。
本稿では,大規模言語モデル (LLM) が基本的公平性の概念に準拠しているかどうかを考察し,人間の嗜好との整合性について検討する。
論文 参考訳(メタデータ) (2025-02-01T04:24:47Z) - Uncovering Factor Level Preferences to Improve Human-Model Alignment [58.50191593880829]
PROFILEは、好みを駆動する特定の要因の影響を明らかにし、定量化するフレームワークである。
ProFILE の因子レベル分析は、人間モデルのアライメントと不適応の背後にある 'なぜ' を説明している。
我々は、不整合要因に対処するなど、要因レベルの洞察の活用が、人間の嗜好との整合性をいかに改善するかを実証する。
論文 参考訳(メタデータ) (2024-10-09T15:02:34Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。
このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。
LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文 参考訳(メタデータ) (2023-11-29T08:29:54Z) - Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。
本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。
LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文 参考訳(メタデータ) (2023-10-30T17:04:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。