論文の概要: A Finite-Calibration Regime Map for LLM Judge Panels
- arxiv url: http://arxiv.org/abs/2606.01034v1
- Date: Sun, 31 May 2026 05:50:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.156801
- Title: A Finite-Calibration Regime Map for LLM Judge Panels
- Title(参考訳): LLM判定パネルの有限校正レジームマップ
- Authors: Bin Zhu, Yanghui Rao,
- Abstract要約: 低次元のスタッカーは、見積もりコストが小さいが、相互作用を見逃す。
共同テーブルキャリブレータは相互作用を表現できるが、細胞数や目に見えないパターンに課金する。
有限校正パネル選択としてインスタンス化する。
- 参考スコア(独自算出の注目度): 20.713333832898766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study when LLM judge panels should be calibrated with low-dimensional stackers versus joint output tables under finite human-label budgets. Low-dimensional stackers have small estimation cost but miss interactions, whereas joint-table calibrators can represent interactions but pay for cell counts and unseen patterns. We cast this tradeoff as a finite-calibration regime map and instantiate it as Finite-Calibration Panel Selection, a deployable validation selector over judge path, prefix size, and aggregator family with table and parametric estimation diagnostics. On RewardBench, LLMBar, SummEval, and Arena100K with a seven-judge pool including DeepSeek V4 Flash, scalar/reliability aggregation wins 16 of 20 real dataset--budget cells, indicating that current judge outputs are often additive or redundant. Controlled calibration-growth data show the complementary regime: additive labels remain scalar-favored, whereas a six-way interaction selects a larger joint table and its test MSE drops from 0.224 to 0.061 once unseen mass vanishes. Thus the practical question is not ``how many judges?'' but whether the next judge's information is estimable under the available human labels.
- Abstract(参考訳): 我々は,LLM審査パネルを低次元スタッカーで校正する場合と,有限な人為的予算下での連立出力表について検討する。
低次元のスタッカーはコストが小さいが、相互作用を見逃すが、ジョイントテーブルのキャリブレータは相互作用を表現できるが、セル数や見当たらないパターンに課金する。
我々は、このトレードオフを有限校正規則マップとして、有限校正パネル選択、判定パス、プレフィックスサイズ、アグリゲータファミリーに対するデプロイ可能な検証セレクタ、テーブルおよびパラメトリック推定診断としてインスタンス化した。
RewardBench, LLMBar, SummEval, Arena100Kには,DeepSeek V4 Flashを含む7つのジャッジプールがある。
調整されたキャリブレーション成長データは、相補的な状態を示している: 添加性ラベルはスカラーに好ましくないが、一方、6方向の相互作用はより大きな関節テーブルを選択し、そのテストMSEは質量が消えると0.224から0.061に低下する。
したがって、実際の問題は「何人の審査員」ではなく、次の審査員の情報が利用可能な人間ラベルの下で推定可能かどうかである。
関連論文リスト
- Calibrate, Don't Curate: Label-Efficient Estimation from Noisy LLM Judges [3.974554103907186]
ラベル付きキャリブレーションデータを用いたマルチジャッジ評価では、弱い判断を精度だけで破棄しないことが示されている。
本稿では, 適切なスコアリングルール下での最適校正リスクが, 付加的な判定信号が利用可能になった場合に増大しないことを示すオラクル分析による逆転について説明する。
論文 参考訳(メタデータ) (2026-05-10T18:49:58Z) - BiAxisAudit: A Novel Framework to Evaluate LLM Bias Across Prompt Sensitivity and Response-Layer Divergence [22.315546054051143]
大規模言語モデルのバイアス監査は、EU AI Actなどのガバナンスフレームワーク内で運用されている。
このプロトコルでは、各バイアススコアを2つの軸上での信頼性推定とともに報告する。
論文 参考訳(メタデータ) (2026-05-09T16:26:49Z) - CogBias: Measuring and Mitigating Cognitive Bias in Large Language Models [8.81733256907103]
大規模言語モデル(LLM)は、高い意思決定コンテキストにますますデプロイされている。
認知バイアスは, 判断, 情報処理, 社会的, 反応の4種類の認知バイアスのすべてに対して, 体系的に現れることを示す。
活性化ステアリングを用いてバイアスの挙動を変調し,26~32%のバイアススコアの低減を実現した。
論文 参考訳(メタデータ) (2026-04-01T20:22:14Z) - Dependence-Aware Label Aggregation for LLM-as-a-Judge via Ising Models [55.94503936470247]
大規模なAI評価は、審査員を含む、$K$アノテータからのバイナリ判断を集約することにますます依存している。
ほとんどの古典的なメソッドは、アノテータが条件的に独立であると仮定するが、真のラベルは$Yin0,1$であり、この仮定は LLM の審査員によってしばしば違反される。
我々はIsingグラフィカルモデルと潜在因子に基づく依存認識モデルの階層構造を通してラベルアグリゲーションを研究する。
論文 参考訳(メタデータ) (2026-01-29T21:26:50Z) - Benchmarks Saturate When The Model Gets Smarter Than The Judge [4.599673637363014]
我々は,Omni-MATHデータセットを手動で改訂したバージョンを提案する。
それぞれの問題は、コンパイル可能性、解決可能性、検証可能性を保証するために監査された。
我々は, GPT-5 mini とオリジナルの Omni-Judge を比較し, クリーンおよびタグ付けされた問題サブセットの双方において, 裁判官間の相当な相違を明らかにした。
論文 参考訳(メタデータ) (2026-01-27T12:20:44Z) - Calibratable Disambiguation Loss for Multi-Instance Partial-Label Learning [53.9713678229744]
MIPL(Multi-instance partial-label Learning)は、インスタンス空間とラベル空間の両方において、不正確な監督の課題に対処する弱い教師付きフレームワークである。
既存のMIPLアプローチは、しばしばキャリブレーションが悪く、信頼性を損なう。
分類精度と校正性能を同時に向上するプラグアンドプレイ校正型曖昧さ損失(CDL)を提案する。
論文 参考訳(メタデータ) (2025-12-19T16:58:31Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Unsupervised Conformal Inference: Bootstrapping and Alignment to Control LLM Uncertainty [49.19257648205146]
生成のための教師なし共形推論フレームワークを提案する。
我々のゲートは、分断されたUPPよりも厳密で安定した閾値を提供する。
その結果は、ラベルのない、API互換の、テスト時間フィルタリングのゲートになる。
論文 参考訳(メタデータ) (2025-09-26T23:40:47Z) - Labels in Extremes: How Well Calibrated are Extreme Multi-label Classifiers? [5.26569785878819]
極端なマルチラベル分類(XMLC)問題は、関連する製品レコメンデーション、大規模ドキュメントのタグ付け、広告予測といった設定で発生する。
本稿では,9つのモデルの体系的評価を提供することで,XMLCのキャリブレーションの現在の状況を確立することを目的とする。
論文 参考訳(メタデータ) (2024-11-06T21:46:23Z) - Correcting Underrepresentation and Intersectional Bias for Classification [49.1574468325115]
我々は、表現不足のバイアスによって破損したデータから学習する問題を考察する。
偏りのないデータの少ない場合、グループワイドのドロップアウト率を効率的に推定できることが示される。
本アルゴリズムは,有限VC次元のモデルクラスに対して,効率的な学習を可能にする。
論文 参考訳(メタデータ) (2023-06-19T18:25:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。