論文の概要: JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs
- arxiv url: http://arxiv.org/abs/2601.23183v1
- Date: Fri, 30 Jan 2026 17:06:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.580772
- Title: JobResQA: A Benchmark for LLM Machine Reading Comprehension on Multilingual Résumés and JDs
- Title(参考訳): JobResQA:多言語レセミとJDによるLLM機械読解のベンチマーク
- Authors: Casimiro Pio Carrino, Paula Estrella, Rabih Zbib, Carlos Escolano, José A. R. Fonollosa,
- Abstract要約: JobResQAは、HR固有のタスクで機械読み取り(MRC)機能を評価するためのベンチマークである。
データセットは、5つの言語で105のresumé-job記述ペアに対して511のQAペアで構成されている。
- 参考スコア(独自算出の注目度): 3.83467384247581
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We introduce JobResQA, a multilingual Question Answering benchmark for evaluating Machine Reading Comprehension (MRC) capabilities of LLMs on HR-specific tasks involving résumés and job descriptions. The dataset comprises 581 QA pairs across 105 synthetic résumé-job description pairs in five languages (English, Spanish, Italian, German, and Chinese), with questions spanning three complexity levels from basic factual extraction to complex cross-document reasoning. We propose a data generation pipeline derived from real-world sources through de-identification and data synthesis to ensure both realism and privacy, while controlled demographic and professional attributes (implemented via placeholders) enable systematic bias and fairness studies. We also present a cost-effective, human-in-the-loop translation pipeline based on the TEaR methodology, incorporating MQM error annotations and selective post-editing to ensure an high-quality multi-way parallel benchmark. We provide a baseline evaluations across multiple open-weight LLM families using an LLM-as-judge approach revealing higher performances on English and Spanish but substantial degradation for other languages, highlighting critical gaps in multilingual MRC capabilities for HR applications. JobResQA provides a reproducible benchmark for advancing fair and reliable LLM-based HR systems. The benchmark is publicly available at: https://github.com/Avature/jobresqa-benchmark
- Abstract(参考訳): ジョブレスQA(JobResQA)は、レサムやジョブ記述を含む人事固有のタスクに対して、LLMの機械読解(MRC)能力を評価するための多言語質問応答ベンチマークである。
このデータセットは、5つの言語(英語、スペイン語、イタリア語、ドイツ語、中国語)で105の合成resumé-job記述ペアをまたいだ581のQAペアで構成されており、基本的な事実抽出から複雑な文書間推論まで3つの複雑さレベルにまたがっている。
本研究では,現実主義とプライバシの両方を保証するために,現実の情報源から派生したデータ生成パイプラインを提案する。
また,TEaR手法をベースとして,MQMエラーアノテーションと選択後編集を取り入れ,高品質なマルチウェイ並列ベンチマークを実現するために,費用対効果の高いヒューマン・イン・ザ・ループ変換パイプラインを提案する。
LLM-as-judgeアプローチを用いて、複数のオープンウェイトLLMファミリーに対してベースライン評価を行い、英語とスペイン語のパフォーマンスが向上するが、他の言語では大幅に低下し、HRアプリケーションにおける多言語MRC機能に重要なギャップが浮かび上がっていることを示した。
JobResQAは、公正で信頼性の高いLLMベースの人事システムを改善するための再現可能なベンチマークを提供する。
ベンチマークは、https://github.com/Avature/jobresqa-benchmarkで公開されている。
関連論文リスト
- CCFQA: A Benchmark for Cross-Lingual and Cross-Modal Speech and Text Factuality Evaluation [26.054199546779696]
CCFQAベンチマークには8言語にまたがる並列音声テキストの事実質問が含まれている。
実験の結果,現在のMLLMはCCFQAベンチマークにおいて大きな課題に直面していることがわかった。
本稿では,LLMの質問応答能力(QA)を多言語音声質問応答(SQA)タスクに効果的に伝達する,数発の翻訳学習戦略を提案する。
論文 参考訳(メタデータ) (2025-08-10T11:09:41Z) - The AI Language Proficiency Monitor -- Tracking the Progress of LLMs on Multilingual Benchmarks [0.0]
我々は、最大200言語にわたる大規模言語モデル(LLM)のパフォーマンスを評価する包括的なベンチマークであるAI Language Monitorを紹介した。
FLORES+, MMLU, GSM8K, TruthfulQA, ARCなどのデータセットを用いて, 翻訳, 質問応答, 数学, 推論などのタスクを集約した。
私たちは、研究者、開発者、政策立案者をサポートし、モデルパフォーマンスの強さとギャップを識別する、オープンソースの自動更新型リーダボードとダッシュボードを提供しています。
論文 参考訳(メタデータ) (2025-07-11T12:38:02Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Think Carefully and Check Again! Meta-Generation Unlocking LLMs for Low-Resource Cross-Lingual Summarization [108.6908427615402]
CLS(Cross-lingual summarization)は、異なるターゲット言語でソーステキストの要約を生成することを目的としている。
現在、インストラクションチューニング付き大規模言語モデル (LLM) は様々な英語タスクで優れている。
近年の研究では、LCSタスクにおけるLCMの性能は、わずかな設定でも満足できないことが示されている。
論文 参考訳(メタデータ) (2024-10-26T00:39:44Z) - Towards Reliable Detection of LLM-Generated Texts: A Comprehensive Evaluation Framework with CUDRT [9.682499180341273]
大規模言語モデル(LLM)はテキスト生成が大幅に進歩しているが、その出力の人間的な品質は大きな課題を呈している。
中国語と英語の総合的な評価フレームワークとバイリンガルベンチマークであるCUDRTを提案する。
このフレームワークは、スケーラブルで再現可能な実験をサポートし、運用の多様性、多言語トレーニングセット、LLMアーキテクチャが検出性能に与える影響を分析する。
論文 参考訳(メタデータ) (2024-06-13T12:43:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。