論文の概要: Autorubric: A Unified Framework for Rubric-Based LLM Evaluation
- arxiv url: http://arxiv.org/abs/2603.00077v1
- Date: Fri, 13 Feb 2026 02:26:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.030077
- Title: Autorubric: A Unified Framework for Rubric-Based LLM Evaluation
- Title(参考訳): Autorubric: ルブリックに基づくLLM評価のための統一フレームワーク
- Authors: Delip Rao, Chris Callison-Burch,
- Abstract要約: 大規模言語モデル(LLM)を評価するための統一フレームワークを提案する。
この論文で提案されているオープンソースのPythonフレームワークであるAutorubricで、それぞれのテクニックが実現されている。
Autorubricは、重み付き二分、順序、および名目基準をサポートしており、多数派、重み付き、一対一、無投票のアグリゲーションによるシングルジャッジとマルチジャッジのアンサンブルの評価である。
- 参考スコア(独自算出の注目度): 34.429649156970015
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Rubric-based evaluation with large language models (LLMs) has become standard practice for assessing text generation at scale, yet the underlying techniques are scattered across papers with inconsistent terminology and partial solutions. We present a unified framework: each identified technique is paired with its realization in Autorubric, an open-source Python framework proposed in this paper. Autorubric supports binary, ordinal, and nominal criteria with configurable weights; single-judge and multi-judge ensemble evaluation with majority, weighted, unanimous, and any-vote aggregation; few-shot calibration with verdict-balanced sampling; and mitigations for position bias (option shuffling), verbosity bias (length penalties), and criterion conflation (per-criterion atomic evaluation with natural language explanations). The framework provides reliability metrics drawn from psychometrics (Cohen's $κ$, weighted $κ$, correlation coefficients, and distribution-level tests) alongside production infrastructure including response caching, checkpointing with resumable runs, multi-provider rate limiting, and cost tracking. We evaluate Autorubric on three benchmarks spanning educational assessment, deep research evaluation, and chatbot quality assessment, demonstrating that it produces results consistent with published benchmarks while exercising the framework's key capabilities: per-criterion binary evaluation with few-shot calibration (RiceChem), multi-judge ensemble evaluation across judge models (ResearcherBench), and mixed criterion types combining binary, ordinal, and nominal scales (CHARM-100). We also contribute CHARM-100, a 100-sample chatbot evaluation dataset with per-sample ground truth labels across all three criterion types, designed to stress-test rubric evaluation frameworks on heterogeneous criteria.
- Abstract(参考訳): 大規模言語モデル(LLM)を用いた言語評価は,テキスト生成を大規模に評価する標準的な手法となっているが,その基礎となる手法は,矛盾する用語や部分解を持つ論文に分散している。
この論文で提案するオープンソースのPythonフレームワークであるAutorubricでは,それぞれの識別されたテクニックが,その実現と組み合わせられている。
オートルブリックは、構成可能な重み付き二分法、順序法および名目基準、多数、重み付き、一対一、および任意の投票による評価、判定平衡サンプリングによる少数ショットキャリブレーション、位置偏差(オプションシャッフル)、冗長性偏差(長いペナルティ)、基準衝突(自然言語説明による1基準原子評価)をサポートする。
このフレームワークは、レスポンスキャッシング、再利用可能な実行によるチェックポイント、マルチプロファイラレート制限、コストトラッキングを含む、プロダクションインフラストラクチャとともに、サイコメトリック(Cohen氏の$κ$、重み付き$κ$、相関係数、および分散レベルテスト)から引き出された信頼性メトリクスを提供する。
我々はAutorubricを教育評価、ディープリサーチ評価、チャットボット品質評価の3つのベンチマークで評価し、フレームワークの主要な能力を行使しながら、公開ベンチマークと一貫性のある結果が得られることを示した。
ヘテロジニアスな基準のルーリック評価フレームワークをストレステストするために設計された,3つの基準タイプすべてにわたるサンプル単位の真実ラベルを持つ100サンプルのチャットボット評価データセットであるCHARM-100もコントリビュートする。
関連論文リスト
- IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。
各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。
IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文 参考訳(メタデータ) (2026-03-05T02:21:17Z) - AutoBench: Automating LLM Evaluation through Reciprocal Peer Assessment [12.9569411072262]
AutoBenchは、大規模言語モデル(LLM)を評価するための、完全に自動化され、自己持続的なフレームワークである
本稿では,eZecute S.R.L によるオープンソースプロジェクトとして開発された AutoBench 方法論の厳密な科学的検証を行う。
論文 参考訳(メタデータ) (2025-10-26T09:20:39Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - EigenBench: A Comparative Behavioral Measure of Value Alignment [0.28707625120094377]
EigenBenchは、言語モデルの値をベンチマークするためのブラックボックスメソッドである。
合理的な判断者が正しいラベルに同意できない主観的な特性を定量化するように設計されている。
GPQAベンチマークのモデルランキングを、客観的ラベルにアクセスすることなく復元することができる。
論文 参考訳(メタデータ) (2025-09-02T04:14:26Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - CheckEval: A reliable LLM-as-a-Judge framework for evaluating text generation using checklists [15.19714327680248]
チェックリストに基づく評価フレームワークであるCheckEvalを導入する。
CheckEvalは、評価モデル間の平均一致を0.45改善し、スコアのばらつきを低減します。
論文 参考訳(メタデータ) (2024-03-27T17:20:39Z) - Better than Average: Paired Evaluation of NLP Systems [31.311553903738798]
評価スコアのインスタンスレベルのペアリングを考慮に入れることの重要性を示す。
平均, 中央値, BT と 2 種類のBT (Elo と TrueSkill) を用いて評価スコアの完全な解析を行うための実用的なツールをリリースする。
論文 参考訳(メタデータ) (2021-10-20T19:40:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。