論文の概要: "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations
- arxiv url: http://arxiv.org/abs/2510.19167v2
- Date: Thu, 23 Oct 2025 08:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.924927
- Title: "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations
- Title(参考訳): 『あなたは拒絶されている!』:雇用評価を取り入れた大規模言語モデルに関する実証的研究
- Authors: Dingjie Fu, Dianxing Shi,
- Abstract要約: 本稿では,Large Language Models (LLM) が採用評価に合格できるかどうかを検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
- 参考スコア(独自算出の注目度): 1.1254231171451319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of the internet and the rapid advancement of Artificial Intelligence, leading technology companies face an urgent annual demand for a considerable number of software and algorithm engineers. To efficiently and effectively identify high-potential candidates from thousands of applicants, these firms have established a multi-stage selection process, which crucially includes a standardized hiring evaluation designed to assess job-specific competencies. Motivated by the demonstrated prowess of Large Language Models (LLMs) in coding and reasoning tasks, this paper investigates a critical question: Can LLMs successfully pass these hiring evaluations? To this end, we conduct a comprehensive examination of a widely used professional assessment questionnaire. We employ state-of-the-art LLMs to generate responses and subsequently evaluate their performance. Contrary to any prior expectation of LLMs being ideal engineers, our analysis reveals a significant inconsistency between the model-generated answers and the company-referenced solutions. Our empirical findings lead to a striking conclusion: All evaluated LLMs fails to pass the hiring evaluation.
- Abstract(参考訳): インターネットの普及と人工知能の急速な進歩により、大手テクノロジー企業は、かなりの数のソフトウェアとアルゴリズムエンジニアに対する緊急の年次需要に直面している。
何千人もの応募者から高能率候補者を効率よく、効果的に特定するために、これらの企業は多段階選択プロセスを確立し、雇用特化能力を評価するために設計された標準化された雇用評価を含む。
コーディングと推論タスクにおけるLLM(Large Language Models)の成果に触発された本論文では,LLMがこれらの採用評価に合格できるのか,という重要な疑問を考察する。
この目的のために,広く利用されている専門的評価アンケートを総合的に検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
評価されたLCMはすべて採用評価に合格しなかった。
関連論文リスト
- LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。
我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文 参考訳(メタデータ) (2025-07-30T03:50:46Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。