論文の概要: "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations
- arxiv url: http://arxiv.org/abs/2510.19167v2
- Date: Thu, 23 Oct 2025 08:28:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.924927
- Title: "You Are Rejected!": An Empirical Study of Large Language Models Taking Hiring Evaluations
- Title(参考訳): 『あなたは拒絶されている!』:雇用評価を取り入れた大規模言語モデルに関する実証的研究
- Authors: Dingjie Fu, Dianxing Shi,
- Abstract要約: 本稿では,Large Language Models (LLM) が採用評価に合格できるかどうかを検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
- 参考スコア(独自算出の注目度): 1.1254231171451319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the proliferation of the internet and the rapid advancement of Artificial Intelligence, leading technology companies face an urgent annual demand for a considerable number of software and algorithm engineers. To efficiently and effectively identify high-potential candidates from thousands of applicants, these firms have established a multi-stage selection process, which crucially includes a standardized hiring evaluation designed to assess job-specific competencies. Motivated by the demonstrated prowess of Large Language Models (LLMs) in coding and reasoning tasks, this paper investigates a critical question: Can LLMs successfully pass these hiring evaluations? To this end, we conduct a comprehensive examination of a widely used professional assessment questionnaire. We employ state-of-the-art LLMs to generate responses and subsequently evaluate their performance. Contrary to any prior expectation of LLMs being ideal engineers, our analysis reveals a significant inconsistency between the model-generated answers and the company-referenced solutions. Our empirical findings lead to a striking conclusion: All evaluated LLMs fails to pass the hiring evaluation.
- Abstract(参考訳): インターネットの普及と人工知能の急速な進歩により、大手テクノロジー企業は、かなりの数のソフトウェアとアルゴリズムエンジニアに対する緊急の年次需要に直面している。
何千人もの応募者から高能率候補者を効率よく、効果的に特定するために、これらの企業は多段階選択プロセスを確立し、雇用特化能力を評価するために設計された標準化された雇用評価を含む。
コーディングと推論タスクにおけるLLM(Large Language Models)の成果に触発された本論文では,LLMがこれらの採用評価に合格できるのか,という重要な疑問を考察する。
この目的のために,広く利用されている専門的評価アンケートを総合的に検討する。
我々は,現状のLLMを用いて応答を生成し,その性能を評価する。
LLMが理想的なエンジニアであるというこれまでの期待とは対照的に、我々の分析は、モデル生成の回答と企業参照のソリューションとの間に大きな矛盾があることを明らかにしている。
評価されたLCMはすべて採用評価に合格しなかった。
関連論文リスト
- ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - Large Language Models in Thematic Analysis: Prompt Engineering, Evaluation, and Guidelines for Qualitative Software Engineering Research [5.0043780915457114]
大規模言語モデル (LLMs) は定性的な研究に参入しているが、それらを数理解析 (thematic analysis, TA) のような確立されたアプローチに統合するための再現可能な手法は存在しない。
我々はブラウンとクラークの反射性TAの位相2-5のプロンプトを設計・繰り返し改良した。
ブラウンとクラークの品質基準から導出した潤滑剤を応用した4つの専門家評価器を用いてブラインド評価を行った。
論文 参考訳(メタデータ) (2025-10-21T09:29:18Z) - LLM-Crowdsourced: A Benchmark-Free Paradigm for Mutual Evaluation of Large Language Models [13.713870642186254]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示す。
既存の評価手法は、データ汚染、ブラックボックス操作、主観的嗜好といった問題に悩まされている。
我々は,新しいベンチマークフリー評価パラダイム LLM-Crowdsourced を提案する。
論文 参考訳(メタデータ) (2025-07-30T03:50:46Z) - AI Hiring with LLMs: A Context-Aware and Explainable Multi-Agent Framework for Resume Screening [12.845918958645676]
大規模言語モデル(LLM)を用いたスクリーニング再開のためのマルチエージェントフレームワークを提案する。
フレームワークは、履歴抽出器、評価器、要約器、スコアフォーマッターを含む4つのコアエージェントから構成される。
この動的適応は、パーソナライズされた採用を可能にし、AI自動化と人材獲得のギャップを埋める。
論文 参考訳(メタデータ) (2025-04-01T12:56:39Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Large Language Models are Not Yet Human-Level Evaluators for Abstractive
Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。
また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文 参考訳(メタデータ) (2023-05-22T14:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。