Fugu-MT 論文翻訳(概要): PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval

論文の概要: PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval

arxiv url: http://arxiv.org/abs/2603.17386v1
Date: Wed, 18 Mar 2026 06:08:06 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.532012
Title: PJB: A Reasoning-Aware Benchmark for Person-Job Retrieval
Title（参考訳）: PJB: 人事検索のための推論対応ベンチマーク
Authors: Guangzhi Wang, Xiaohui Yang, Kai Li, Jiawen He, Kai Yang, Ruixuan Zhang, Zhi Liu,
Abstract要約: パーソン・ジョブマッチングは、明示的な制約を検証し、スキル・トランスファー推論とジョブ・コンピテンシー推論を実行するシステムを必要とする。既存のベンチマークでは、このタスクの体系的な診断サポートは提供されていない。 PJB(PJB)を導入した。
参考スコア（独自算出の注目度）: 21.108322341202815
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As retrieval models converge on generic benchmarks, the pressing question is no longer "who scores higher" but rather "where do systems fail, and why?" Person-job matching is a domain that urgently demands such diagnostic capability -- it requires systems not only to verify explicit constraints but also to perform skill-transfer inference and job-competency reasoning, yet existing benchmarks provide no systematic diagnostic support for this task. We introduce PJB (Person-Job Benchmark), a reasoning-aware retrieval evaluation dataset that uses complete job descriptions as queries and complete resumes as documents, defines relevance through job-competency judgment, is grounded in real-world recruitment data spanning six industry domains and nearly 200,000 resumes, and upgrades evaluation from "who scores higher" to "where do systems differ, and why" through domain-family and reasoning-type diagnostic labels. Diagnostic experiments using dense retrieval reveal that performance heterogeneity across industry domains far exceeds the gains from module upgrades for the same model, indicating that aggregate scores alone can severely mislead optimization decisions. At the module level, reranking yields stable improvements while query understanding not only fails to help but actually degrades overall performance when combined with reranking -- the two modules face fundamentally different improvement bottlenecks. The value of PJB lies not in yet another leaderboard of average scores, but in providing recruitment retrieval systems with a capability map that pinpoints where to invest.
Abstract（参考訳）: 検索モデルが一般的なベンチマークに収束するにつれて、プレス問題はもはや"誰がより高いスコアを得るか"ではなく、"システムはどこに失敗するのか、なぜ失敗するのか"である。パーソナジョブマッチングは、そのような診断能力を緊急に要求するドメインである -- 明示的な制約を検証するだけでなく、スキル伝達推論やジョブコンピテンシー推論を実行するためにシステムを必要とするが、既存のベンチマークでは、このタスクに対して体系的な診断サポートを提供していない。 PJB(Person-Job Benchmark)は、完全ジョブ記述をクエリとして、履歴書をドキュメントとして使用し、ジョブコンピテンシー判断を通じて関連性を定義し、業界6つのドメインと20万の履歴履歴からなる実世界の採用データに基づいて、評価を「より高いスコア」から「どのシステムが異なるのか、なぜなのか」まで、ドメインファミリーや推論型診断ラベルを通じて改善する、推論対応評価データセットである。密集検索を用いた診断実験により、産業領域におけるパフォーマンスの不均一性は、同じモデルに対するモジュールアップグレードから得られる利益をはるかに上回っており、集計スコアだけでは、最適化決定を著しく誤解させる可能性があることが判明した。モジュールレベルでは、リグレードは安定した改善をもたらすが、クエリの理解は役に立たないだけでなく、リグレードと組み合わせることで全体的なパフォーマンスを低下させる。 PJBの価値は、平均得点のもう1つのリーダーボードではなく、投資先を特定する能力マップを備えた採用検索システムにある。

関連論文リスト

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文参考訳（メタデータ） (2026-03-03T17:52:01Z)
HotelQuEST: Balancing Quality and Efficiency in Agentic Search [6.1626572270420334]
エージェント検索は,大規模言語モデル(LLM)を利用した適応検索システムにおいて,有望なパラダイムとして登場した。ホテルクエスト(HotelQuEST)は、214のホテル検索クエリからなるベンチマークで、単純な事実要求から複雑なクエリまで様々である。 LLMをベースとしたエージェントは,従来のレトリバーよりも精度が高いが,冗長なツールコールや準最適ルーティングによるコストが著しく高いことがわかった。
論文参考訳（メタデータ） (2026-02-27T11:50:57Z)
Benchmarking at the Edge of Comprehension [38.43582342860192]
ベンチマークが実現不可能になった場合、AIの進歩を計測する能力が重要になります。完全人間の理解が不可能な場合でも,モデルを比較するために設計された対戦型フレームワークであるCrytique-Resilient Benchmarkingを提案する。標準的なベンチマークとは異なり、人間は有界検証として機能し、ローカライズされたクレームにフォーカスする。
論文参考訳（メタデータ） (2026-02-15T20:51:29Z)
The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文参考訳（メタデータ） (2026-02-03T08:18:37Z)
DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。 DoVerは失敗試験の18～28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30～60%を検証または否定する。
論文参考訳（メタデータ） (2025-12-07T09:23:48Z)
Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。 25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文参考訳（メタデータ） (2025-10-01T07:59:03Z)
Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。 Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。 SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文参考訳（メタデータ） (2025-09-25T14:05:55Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
Hard Negative Mining for Domain-Specific Retrieval in Enterprise Systems [2.4830284216463]
ドメイン固有の企業データに特化して設計された,スケーラブルなハード負のマイニングフレームワークを提案する。提案手法は意味論的に難しいが文脈的に無関係な文書を動的に選択し,デプロイされた再ランクモデルを強化する。
論文参考訳（メタデータ） (2025-05-23T20:51:20Z)
TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文参考訳（メタデータ） (2024-10-15T11:20:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。