論文の概要: Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
- arxiv url: http://arxiv.org/abs/2604.02368v1
- Date: Fri, 27 Mar 2026 11:28:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.118207
- Title: Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
- Title(参考訳): Xpertbench: ラグビーベースの評価を備えたエキスパートレベルのタスク
- Authors: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu,
- Abstract要約: LLM(Large Language Models)は、従来のベンチマークで高い性能を示す。
既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。
XpertBench(英語版)は、真の専門分野にわたるLSMを評価するために開発された高忠実度ベンチマークである。
- 参考スコア(独自算出の注目度): 32.5154721488471
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.
- Abstract(参考訳): 大規模言語モデル(LLM)は従来のベンチマークで高いパフォーマンスを示すため、真の専門家レベルの認知を特徴付ける複雑でオープンなタスクにおいて、その習熟度を評価するという重要な課題が続いている。
既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。
このギャップを埋めるために、私たちはXpertBenchを紹介します。
XpertBenchは、金融、医療、法律サービス、教育、デュアルトラック研究(STEMと人文科学)にまたがる、80のカテゴリーにわたる1,346の精巧にキュレートされたタスクで構成されている。
これらの課題は、専門機関や幅広い臨床・産業経験を持つ専門家を含む1000人以上のドメインの専門家による提出から導かれるもので、より優れた生態学的妥当性を保証している。
各タスクは、プロのリガーを評価するために15~40個のチェックポイントを備えた詳細なルーリックを使用する。
スケーラブルでヒューマンアライメントな評価を容易にするために、我々は、自己回帰バイアスを軽減するために、専門家による数ショットの例を校正したLLM審査員を用いた新しい評価パラダイムであるShotJudgeを紹介した。
先行モデルでさえ、ピーク成功率はわずか66%であり、平均スコアは55%である。
モデルはまたドメイン固有の発散を示し、量的推論と言語合成において重複しない強みを示す。
と。
これらの発見は、現在のAIシステムにおいて重要な「エキスパートギャップ」を強調し、汎用アシスタントから専門のプロフェッショナル協力者への移行をナビゲートするための重要な手段としてXpertBenchを確立する。
関連論文リスト
- An Expert Schema for Evaluating Large Language Model Errors in Scholarly Question-Answering Systems [1.9138416746729587]
大規模言語モデル(LLM)は、探索や要約といった学術的なタスクを変換しているが、その信頼性は未だに不明である。
質問応答システムにおけるLCMの誤りを評価するためのスキーマを開発し,実験者の評価戦略を反映した。
論文 参考訳(メタデータ) (2026-02-24T16:16:44Z) - PRBench: Large-Scale Expert Rubrics for Evaluating High-Stakes Professional Reasoning [18.32501228579171]
Professional Reasoning Bench (PRBench) は、ファイナンス・アンド・ローにおける現実的な問題の現実的で、オープンで、困難なベンチマークである。
私たちは1,100人の専門家によるタスクと19,356人の専門家による基準をオープンソース化しました。
論文 参考訳(メタデータ) (2025-11-14T18:55:12Z) - ProfBench: Multi-Domain Rubrics requiring Professional Knowledge to Answer and Judge [94.40918390309186]
大規模言語モデル(LLM)の進捗を評価することは、応答を検証するという課題によって制約されることが多い。
7000以上の応答基準ペアの集合であるProfBenchを紹介する。
以上の結果から, ProfBench は最先端の LLM においても大きな課題となることが明らかとなった。
論文 参考訳(メタデータ) (2025-10-21T17:59:44Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - SuperGPQA: Scaling LLM Evaluation across 285 Graduate Disciplines [118.8024915014751]
大規模言語モデル(LLM)は、数学、物理学、計算機科学などの学問分野において顕著な熟練性を示している。
しかしながら、人間の知識は200以上の専門分野を含み、既存のベンチマークの範囲をはるかに超えている。
285分野にわたる大学院レベルの知識と推論能力を評価するベンチマークであるSuperGPQAを提案する。
論文 参考訳(メタデータ) (2025-02-20T17:05:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。