論文の概要: Towards Smarter Hiring: Are Zero-Shot and Few-Shot Pre-trained LLMs Ready for HR Spoken Interview Transcript Analysis?
- arxiv url: http://arxiv.org/abs/2504.05683v1
- Date: Tue, 08 Apr 2025 04:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:31:38.237316
- Title: Towards Smarter Hiring: Are Zero-Shot and Few-Shot Pre-trained LLMs Ready for HR Spoken Interview Transcript Analysis?
- Title(参考訳): よりスマートな採用に向けて - Zero-Shot と Few-Shot の事前トレーニング LLM は HR Spoken Interview Transcript Analysis の準備ができているか?
- Authors: Subhankar Maity, Aniket Deroy, Sudeshna Sarkar,
- Abstract要約: GPT-4 Turbo, GPT-3.5 Turbo, text-davinci-003, text-babbage-001, text-curie-001, text-ada-001, llama-2-7b-chat, llama-2-13b-chat, llama-2-70b-chatについて検討した。
我々は,HURIT (Human Resource Interview Transcripts) と呼ばれるデータセットを紹介した。
以上の結果から, プレトレーニングLLM, 特に GPT-4 Turbo と GPT-3.5 Turbo は, 有能な性能を示し, 有能な評価が可能であることが明らかとなった。
- 参考スコア(独自算出の注目度): 0.4857223913212445
- License:
- Abstract: This research paper presents a comprehensive analysis of the performance of prominent pre-trained large language models (LLMs), including GPT-4 Turbo, GPT-3.5 Turbo, text-davinci-003, text-babbage-001, text-curie-001, text-ada-001, llama-2-7b-chat, llama-2-13b-chat, and llama-2-70b-chat, in comparison to expert human evaluators in providing scores, identifying errors, and offering feedback and improvement suggestions to candidates during mock HR (Human Resources) interviews. We introduce a dataset called HURIT (Human Resource Interview Transcripts), which comprises 3,890 HR interview transcripts sourced from real-world HR interview scenarios. Our findings reveal that pre-trained LLMs, particularly GPT-4 Turbo and GPT-3.5 Turbo, exhibit commendable performance and are capable of producing evaluations comparable to those of expert human evaluators. Although these LLMs demonstrate proficiency in providing scores comparable to human experts in terms of human evaluation metrics, they frequently fail to identify errors and offer specific actionable advice for candidate performance improvement in HR interviews. Our research suggests that the current state-of-the-art pre-trained LLMs are not fully conducive for automatic deployment in an HR interview assessment. Instead, our findings advocate for a human-in-the-loop approach, to incorporate manual checks for inconsistencies and provisions for improving feedback quality as a more suitable strategy.
- Abstract(参考訳): 本研究は,GPT-4 Turbo, GPT-3.5 Turbo, text-davinci-003, text-babbage-001, text-curie-001, text-ada-001, llama-2-13b-chat, llama-2-70b-chat, llama-2-70b-chatを含む著名な事前学習型大規模言語モデル(LLM)の性能に関する総合的な分析である。
HURIT(Human Resource Interview Transcripts)と呼ばれるデータセットを導入する。
以上の結果から, プレトレーニングLLM, 特に GPT-4 Turbo と GPT-3.5 Turbo は, 有能な性能を示し, 有能な評価器に匹敵する評価を行うことができることがわかった。
これらのLCMは、人間の評価指標の点で、人間の専門家に匹敵するスコアを提供する能力を示すが、しばしばエラーを特定し、HRインタビューにおけるパフォーマンス改善の候補となるための具体的な具体的なアドバイスを提供する。
我々の研究は、現在最先端の訓練済みLLMは、HRインタビューアセスメントにおける自動展開に完全には役立っていないことを示唆している。
そこで本研究では,より適切な戦略として,不整合やフィードバック品質向上のための手動チェックを組み込むことを提唱した。
関連論文リスト
- GuideLLM: Exploring LLM-Guided Conversation with Applications in Autobiography Interviewing [73.8469700907927]
大規模言語モデル(LLM)は、指示の追従や質問応答といった人間の指導による会話に成功している。
本研究では, LLM誘導会話を, ゴールナビゲーション, (ii) コンテキストマネジメント, (iii) 共感エンゲージメントの3つの基本要素に分類した。
GPT-4o や Llama-3-70b-Instruct のような6つの最先端 LLM と比較し, 面接品質, 自伝生成品質の観点から検討した。
論文 参考訳(メタデータ) (2025-02-10T14:11:32Z) - Assessing Personalized AI Mentoring with Large Language Models in the Computing Field [3.855858854481047]
GPT-4, LLaMA 3およびPalm 2は, 人間の介入を伴わないゼロショット学習手法を用いて評価した。
GPT-4はよりパーソナライズされたメンタリングを提供することを示している。
論文 参考訳(メタデータ) (2024-12-11T14:51:13Z) - Optimizing the role of human evaluation in LLM-based spoken document summarization systems [0.0]
生成AIコンテンツに適した音声文書要約のための評価パラダイムを提案する。
実験設計における堅牢性, 再現性, 信頼性を確保するために, 詳細な評価基準とベストプラクティスガイドラインを提供する。
論文 参考訳(メタデータ) (2024-10-23T18:37:14Z) - Rewriting Conversational Utterances with Instructed Large Language Models [9.38751103209178]
大規模言語モデル(LLM)は多くのNLPタスクで最先端のパフォーマンスを達成することができる。
本稿では,最高の検索性能をもたらす最も情報に富んだ発話を提示する手法について検討する。
その結果、LLMによる会話音声の書き直しは、MRRで25.2%、Precision@1で31.7%、NDCG@3で27%、Recall@500で11.5%の大幅な改善が達成された。
論文 参考訳(メタデータ) (2024-10-10T10:30:28Z) - Towards Optimizing and Evaluating a Retrieval Augmented QA Chatbot using LLMs with Human in the Loop [44.51779041553597]
大規模言語モデルは、ヒューマンリソース(HR)のサポートを含む、日常的で反復的なタスクに応用されている。
我々は、従業員の質問に対処するための効率的かつ効果的なツールとして、人事支援チャットボットを開発した。
実験と評価の結果,GPT-4は他のモデルよりも優れており,データの矛盾を克服できることがわかった。
専門家分析により、G-Evalなどの基準フリー評価指標を推定し、信頼性が人間の評価と密接に一致していることを示す。
論文 参考訳(メタデータ) (2024-07-08T13:32:14Z) - ChatEval: Towards Better LLM-based Evaluators through Multi-Agent Debate [57.71597869337909]
われわれはChatEvalと呼ばれるマルチエージェントの審判チームを構築し、異なるモデルから生成された応答の品質を自律的に議論し評価する。
分析の結果,ChatEvalは単なるテキストスコアリングを超越し,信頼性評価のための人間模倣評価プロセスを提供することがわかった。
論文 参考訳(メタデータ) (2023-08-14T15:13:04Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - G-Eval: NLG Evaluation using GPT-4 with Better Human Alignment [64.01972723692587]
本稿では,大規模言語モデルにチェーン・オブ・シント(CoT)を組み込んだフレームワークであるG-Evalと,NLG出力の品質評価のためのフォームフィリングパラダイムを提案する。
GPT-4 をバックボーンモデルとした G-Eval は,要約タスクにおいて,0.514 と人間とのスピアマン相関を達成し,従来手法の差を大きく上回ることを示す。
論文 参考訳(メタデータ) (2023-03-29T12:46:54Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。