Fugu-MT 論文翻訳(概要): Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

論文の概要: Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

arxiv url: http://arxiv.org/abs/2604.02368v1
Date: Fri, 27 Mar 2026 11:28:15 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.118207
Title: Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation
Title（参考訳）: Xpertbench: ラグビーベースの評価を備えたエキスパートレベルのタスク
Authors: Xue Liu, Xin Ma, Yuxin Ma, Yongchang Peng, Duo Wang, Zhoufutu Wen, Ge Zhang, Kaiyuan Zhang, Xinyu Chen, Tianci He, Jiani Hou, Liang Hu, Ziyun Huang, Yongzhe Hui, Jianpeng Jiao, Chennan Ju, Yingru Kong, Yiran Li, Mengyun Liu, Luyao Ma, Fei Ni, Yiqing Ni, Yueyan Qiu, Yanle Ren, Zilin Shi, Zaiyuan Wang, Wenjie Yue, Shiyu Zhang, Xinyi Zhang, Kaiwen Zhao, Zhenwei Zhu,
Abstract要約: LLM(Large Language Models)は、従来のベンチマークで高い性能を示す。既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。 XpertBench(英語版)は、真の専門分野にわたるLSMを評価するために開発された高忠実度ベンチマークである。
参考スコア（独自算出の注目度）: 32.5154721488471
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: As Large Language Models (LLMs) exhibit plateauing performance on conventional benchmarks, a pivotal challenge persists: evaluating their proficiency in complex, open-ended tasks characterizing genuine expert-level cognition. Existing frameworks suffer from narrow domain coverage, reliance on generalist tasks, or self-evaluation biases. To bridge this gap, we present XpertBench, a high-fidelity benchmark engineered to assess LLMs across authentic professional domains. XpertBench consists of 1,346 meticulously curated tasks across 80 categories, spanning finance, healthcare, legal services, education, and dual-track research (STEM and Humanities). These tasks are derived from over 1,000 submissions by domain experts--including researchers from elite institutions and practitioners with extensive clinical or industrial experience--ensuring superior ecological validity. Each task uses detailed rubrics with mostly 15-40 weighted checkpoints to assess professional rigor. To facilitate scalable yet human-aligned assessment, we introduce ShotJudge, a novel evaluation paradigm that employs LLM judges calibrated with expert few-shot exemplars to mitigate self-rewarding biases. Our empirical evaluation of state-of-the-art LLMs reveals a pronounced performance ceiling: even leading models achieve a peak success rate of only ~66%, with a mean score around 55%. Models also exhibit domain-specific divergence, showing non-overlapping strengths in quantitative reasoning versus linguistic synthesis.. These findings underscore a significant "expert-gap" in current AI systems and establish XpertBench as a critical instrument for navigating the transition from general-purpose assistants to specialized professional collaborators.
Abstract（参考訳）: 大規模言語モデル(LLM)は従来のベンチマークで高いパフォーマンスを示すため、真の専門家レベルの認知を特徴付ける複雑でオープンなタスクにおいて、その習熟度を評価するという重要な課題が続いている。既存のフレームワークは、狭いドメインカバレッジ、ジェネラリストのタスクへの依存、あるいは自己評価バイアスに悩まされている。このギャップを埋めるために、私たちはXpertBenchを紹介します。 XpertBenchは、金融、医療、法律サービス、教育、デュアルトラック研究(STEMと人文科学)にまたがる、80のカテゴリーにわたる1,346の精巧にキュレートされたタスクで構成されている。これらの課題は、専門機関や幅広い臨床・産業経験を持つ専門家を含む1000人以上のドメインの専門家による提出から導かれるもので、より優れた生態学的妥当性を保証している。各タスクは、プロのリガーを評価するために15～40個のチェックポイントを備えた詳細なルーリックを使用する。スケーラブルでヒューマンアライメントな評価を容易にするために、我々は、自己回帰バイアスを軽減するために、専門家による数ショットの例を校正したLLM審査員を用いた新しい評価パラダイムであるShotJudgeを紹介した。先行モデルでさえ、ピーク成功率はわずか66%であり、平均スコアは55%である。モデルはまたドメイン固有の発散を示し、量的推論と言語合成において重複しない強みを示す。と。これらの発見は、現在のAIシステムにおいて重要な「エキスパートギャップ」を強調し、汎用アシスタントから専門のプロフェッショナル協力者への移行をナビゲートするための重要な手段としてXpertBenchを確立する。

論文の概要: Xpertbench: Expert Level Tasks with Rubrics-Based Evaluation

関連論文リスト