論文の概要: RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following
- arxiv url: http://arxiv.org/abs/2603.25133v1
- Date: Thu, 26 Mar 2026 07:55:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.168156
- Title: RubricEval: A Rubric-Level Meta-Evaluation Benchmark for LLM Judges in Instruction Following
- Title(参考訳): RubricEval: LLM審査員の指示追従のためのルーブリックレベルメタ評価ベンチマーク
- Authors: Tianjun Pan, Xuan Lin, Wenyan Yang, Qianyu He, Shisong Chen, Licai Qi, Wanqing Xu, Hongwei Feng, Bo Xu, Yanghua Xiao,
- Abstract要約: 大規模言語モデル(LLM)における命令追従の評価において,ルーブリックレベルの評価が主流となっている
本ベンチマークでは,(1)命令追従のための最初のルーリックレベルのメタ評価ベンチマーク,(2)複数のインスタンスとモデルソースにまたがる多様な命令と応答,(3)判定性能をよりよく区別する3,486個の品質管理サブセットの相当セットを特徴とする。
評価パラダイムを考慮すると、チェックリストレベルの評価はルーブリックレベルよりも優れており、明示的推論は精度を向上し、両者ともにジャッジ間の分散を減少させる。
- 参考スコア(独自算出の注目度): 46.45323577110897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rubric-based evaluation has become a prevailing paradigm for evaluating instruction following in large language models (LLMs). Despite its widespread use, the reliability of these rubric-level evaluations remains unclear, calling for meta-evaluation. However, prior meta-evaluation efforts largely focus on the response level, failing to assess the fine-grained judgment accuracy that rubric-based evaluation relies on. To bridge this gap, we introduce RubricEval. Our benchmark features: (1) the first rubric-level meta-evaluation benchmark for instruction following, (2) diverse instructions and responses spanning multiple categories and model sources, and (3) a substantial set of 3,486 quality-controlled instances, along with Easy/Hard subsets that better differentiates judge performance. Our experiments reveal that rubric-level judging remains far from solved: even GPT-4o, a widely adopted judge in instruction-following benchmarks, achieves only 55.97% on Hard subset. Considering evaluation paradigm, rubric-level evaluation outperforms checklist-level, explicit reasoning improves accuracy, and both together reduce inter-judge variance. Through our established rubric taxonomy, we further identify common failure modes and offer actionable insights for reliable instruction-following evaluation.
- Abstract(参考訳): 大規模言語モデル (LLM) において, ルーブリックに基づく評価が指示に従うためのパラダイムとして主流となっている。
広く使われているにもかかわらず、これらのルーリックレベルの評価の信頼性は未だ不明であり、メタ評価が求められている。
しかし、以前のメタ評価の取り組みは、主に応答レベルに焦点を当てており、ルーリックに基づく評価が依存するきめ細かい判断精度を評価できなかった。
このギャップを埋めるために、RubricEvalを紹介します。
提案するベンチマークでは,(1)命令に対する最初のルーリックレベルのメタ評価ベンチマーク,(2)複数のカテゴリやモデルソースにまたがる多様な命令と応答,(3)品質管理された3,486のインスタンス,(3)判定性能をよりよく区別するEasy/Hardサブセットなどが特徴である。
命令追従ベンチマークで広く採用されているGPT-4oでさえ、ハードサブセットでは55.97%しか得られていない。
評価パラダイムを考慮すると、ルーリックレベルの評価はチェックリストレベルよりも優れており、明示的推論は精度を向上し、両者の相違が軽減される。
確立した古風な分類法を通じて、一般的な失敗モードを更に特定し、信頼性の高い指示追従評価のための実用的な洞察を提供する。
関連論文リスト
- Deep Research, Shallow Evaluation: A Case Study in Meta-Evaluation for Long-Form QA Benchmarks [40.91183014128371]
ScholarQA-CS2を用いた長期QAベンチマークのメタ評価のケーススタディを行う。
人間の選好判断を通じてベンチマークを検証し、このアプローチの強み、弱点、共同創設者を批判的に検証する。
提案手法では,一対の選好ランクがシステムレベルの評価に最適であるのに対して,明示的な計量レベルのアノテーションや専門家アノテータは信頼性の高い計量レベルの評価に不可欠であることを示す。
論文 参考訳(メタデータ) (2026-03-06T23:30:27Z) - The Validity of Coreference-based Evaluations of Natural Language Understanding [3.505146496638911]
標準のコア参照評価を分析し、それらの設計がしばしば一般化不可能な結論につながることを示す。
イベントの相対的妥当性を推測するテストシステムの能力に着目した,新たな評価手法を提案し,実装する。
論文 参考訳(メタデータ) (2026-02-18T05:49:28Z) - J4R: Learning to Judge with Equivalent Initial State Group Relative Policy Optimization [69.23273504123941]
私たちは、より複雑な評価設定で生じる位置バイアスに対して堅牢であるように、裁判官を訓練します。
我々はReasoningJudgeBenchというベンチマークを紹介します。
EIS-GRPOで訓練を受けた7B判事であるReasoning判事(J4R)は、GPT-4oを6.7%、そして9%で上回ります。
論文 参考訳(メタデータ) (2025-05-19T16:50:35Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。