論文の概要: Calibrate, Don't Curate: Label-Efficient Estimation from Noisy LLM Judges
- arxiv url: http://arxiv.org/abs/2605.09702v1
- Date: Sun, 10 May 2026 18:49:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.380602
- Title: Calibrate, Don't Curate: Label-Efficient Estimation from Noisy LLM Judges
- Title(参考訳): Calibrate, Don't Curate: Label-Efficient Estimation from Noisy LLM judges
- Authors: Yanran Li,
- Abstract要約: ラベル付きキャリブレーションデータを用いたマルチジャッジ評価では、弱い判断を精度だけで破棄しないことが示されている。
本稿では, 適切なスコアリングルール下での最適校正リスクが, 付加的な判定信号が利用可能になった場合に増大しないことを示すオラクル分析による逆転について説明する。
- 参考スコア(独自算出の注目度): 3.974554103907186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-judge evaluation is increasingly used to assess LLMs and reward models, and the prevailing heuristic is to curate: keep the most accurate judges and discard weaker ones. We show that this heuristic can reverse when the target is not point accuracy, but calibrated probabilistic evaluation from a labeled calibration set. Holding the aggregation and calibration procedures fixed, we compare accuracy-ranked top-$k$ judge selection with using the full judge panel. Across four labeled pairwise-evaluation benchmarks spanning LLM-as-judge and reward-model settings, the calibrated full panel consistently outperforms accuracy-based selection. On RewardBench2, retaining all judges achieves negative log-likelihood (NLL) of $0.006$ versus $0.013$ under top-5 selection, halving the calibration error. This advantage persists after judge-family deduplication and against stronger same-pipeline subset search. We explain this reversal with oracle analyses showing that the optimal calibrated risk under proper scoring rules cannot increase when additional judge signals are made available, and that even below-chance judges can be useful when their biases are learnable and their signals are non-redundant. The resulting operating principle is simple: in multi-judge evaluation with labeled calibration data, do not discard weak judges by accuracy alone; keep them when they are parseable, non-redundant, and calibratable.
- Abstract(参考訳): マルチジャッジ評価は、LSMと報酬モデルを評価するためにますます使われており、最も正確な判断を維持し、より弱い判断を破棄する、という最も一般的なヒューリスティックな方法である。
このヒューリスティックは、目標が点精度ではない場合に逆転できるが、ラベル付きキャリブレーションセットによる校正確率評価が可能であることを示す。
集計手順と校正手順を固定した上で, 精度の高い上位k$の審査選択を, 全審査パネルを用いて比較する。
LLM-as-judgeと報酬モデル設定にまたがる4つのラベル付きペアワイズ評価ベンチマークで、キャリブレーションされたフルパネルは精度ベースの選択を一貫して上回る。
RewardBench2では、すべてのジャッジを保持すると0.006$対0.013$対トップ5選択となり、キャリブレーションエラーが半減する。
この優位性は、判定ファミリーの重複を解消し、より強力な同一パイプ部分探索に対して持続する。
本稿では, 適切なスコアリングルール下での最適校正リスクが, 付加的な判定信号が得られれば増大し得ず, バイアスが学習可能であり, 信号が冗長でない場合には, 下級審査員でも有用であることを示す。
ラベル付きキャリブレーションデータを用いたマルチジャッジ評価では、弱い判断を正確さだけで破棄してはいけない。
関連論文リスト
- CyclicJudge: Mitigating Judge Bias Efficiently in LLM-based Evaluation [6.3121191919394475]
この研究は、ベンチマークスコアの分散をシナリオ、生成、判断、残留コンポーネントに分割する分散分解を導入する。
この分析に基づいて, 審査員のシナリオへのラウンドロビンの割り当てであるCyclicJudgeが, 一定の審査-呼出予算の最適戦略であることを実証した。
論文 参考訳(メタデータ) (2026-03-02T13:46:32Z) - Who can we trust? LLM-as-a-jury for Comparative Assessment [42.32900791516691]
大規模言語モデル(LLM)は、自然言語生成評価のための自動評価器として、ますます採用されている。
LLMの判断はタスクや側面によって大きく異なるが、その判断確率は偏りがあり矛盾する可能性がある。
我々は,各審査員がアイテムランキングを共同で推定し,ペア比較だけで信頼性を判断する識別パラメータを導入する,Bradley-Terryモデルの拡張であるBT-sigmaを提案する。
論文 参考訳(メタデータ) (2026-02-18T17:04:02Z) - A Judge-Aware Ranking Framework for Evaluating Large Language Models without Ground Truth [4.9467757325435775]
大規模言語モデル(LLM)をオープンなタスクで評価することは、LLM-as-a-judgeパラダイムを通じてますます行われています。
すべての裁判官を平等に扱うことは、偏見のあるリーダーボードを生み出し、不確実性の推定を誤解させる可能性がある。
そこで本研究では,Bradley-Terry-Luceモデルを拡張し,判定固有の識別パラメータを導入することにより,判定対応のランキングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T15:01:28Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - JudgeBench: A Benchmark for Evaluating LLM-based Judges [61.048125269475854]
judgeBenchは、知識、推論、数学、コーディングにまたがる挑戦的な応答ペアに関するLSMベースの判断を評価するためのベンチマークである。
審査員、微調整された審査員、マルチエージェントの審査員、報酬モデルに関する包括的な評価は、審査員ベンチが以前のベンチマークよりもかなり大きな課題を課していることを示している。
論文 参考訳(メタデータ) (2024-10-16T17:58:19Z) - Calibration by Distribution Matching: Trainable Kernel Calibration
Metrics [56.629245030893685]
カーネルベースのキャリブレーションメトリクスを導入し、分類と回帰の両方で一般的なキャリブレーションの形式を統一・一般化する。
これらの指標は、異なるサンプル推定を許容しており、キャリブレーションの目的を経験的リスク最小化に組み込むのが容易である。
決定タスクにキャリブレーションメトリクスを調整し、正確な損失推定を行ない、後悔しない決定を行うための直感的なメカニズムを提供する。
論文 参考訳(メタデータ) (2023-10-31T06:19:40Z) - Beyond calibration: estimating the grouping loss of modern neural
networks [68.8204255655161]
適切なスコアリングルール理論は、キャリブレーション損失が与えられた場合、個々のエラーを特徴づける欠片がグループ化損失であることを示している。
視覚およびNLPにおける現代のニューラルネットワークアーキテクチャは、特に分散シフト設定においてグループ化損失を示す。
論文 参考訳(メタデータ) (2022-10-28T07:04:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。