論文の概要: Two Ways to De-Bias an LLM-as-a-Judge: A Continuous-Score Comparison of Hierarchical Bayesian Calibration and Neural-ODE Score Transport
- arxiv url: http://arxiv.org/abs/2605.09227v1
- Date: Sat, 09 May 2026 23:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.126783
- Title: Two Ways to De-Bias an LLM-as-a-Judge: A Continuous-Score Comparison of Hierarchical Bayesian Calibration and Neural-ODE Score Transport
- Title(参考訳): LLM-as-a-Judge:階層型ベイズ校正とニューラル-ODEスコア輸送の連続スコア比較
- Authors: Andrea Morandi,
- Abstract要約: このマッピングをどのようにモデル化すべきかについて、反対の見解をとる2つの修正子を比較した。
これらの知見を,運用デプロイメントの明確な決定ルールに変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: [Abridged] Using a Large Language Model (LLM) as an automatic rater (LLM-as-a-judge) is cheap but potentially biased: some judges run lenient, others strict, the middle of the scale gets compressed, and verbose answers may be over-rewarded. A common remedy is post-hoc calibration: leave the cheap judge in place and, on a modest set of paired anchors, fit a transformation from raw judge scores to an estimate of the human rating. We compare two correctors that take opposing views on how this mapping should be modeled: a parametric, small-anchor hierarchical Bayesian linear correction with per-score uncertainty, and a non-parametric Neural-ODE (FFJORD) score-transport flow. Both are run head-to-head on UltraFeedback fine-grained_score (1700 paired examples, 200 held out), with calibration split into three operational sub-questions: population-mean recovery, per-item accuracy, and distributional-shape match. The headline result is that the choice between methods is primarily a data-budget question. Both correctors close the raw $+0.71$-point mean offset to within $\pm 0.08$ of the GPT-4 reference, at 100 and at 1500 anchors. Past that, the methods swap roles. With 100 anchors, the linear corrector reconstructs the human-score distribution roughly twice as well by KL divergence (0.031 vs. 0.058) and ties the flow on MAE. With 1500 anchors the flow wins on every metric (MAE 0.320 vs. 0.359, Pearson 0.922 vs. 0.896, KL 0.026 vs. 0.037). The Bayesian linear corrector saturates well below 1500 anchors: residual $\tanh$-shaped non-linearity is, by construction, structure a linear correction cannot fit. The flow keeps improving as labels grow. We translate these findings into an explicit decision rule for production deployments.
- Abstract(参考訳): [Abridged]Large Language Model(LLM)を自動レーダ(LLM-as-a-judge)として使うのは安価だが、バイアスがある可能性がある。
安価な裁判官を置き去りにして、ペアのアンカーの控えめなセットに、生の判定スコアから人間の評価の見積への変換を適合させる。
我々は,このマッピングをどのようにモデル化すべきかを論じる2つの補正器を比較した。パラメトリックで階層的なベイズ線形補正とスコアごとの不確実性,および非パラメトリックニューラル-ODE(FFJORD)スコア-トランスポートフローである。
どちらもUltraFeedbackのファイングラデーション_score (1700ペアの例、200のホールトアウト)のヘッド・ツー・ヘッドで実行され、キャリブレーションは3つのサブクエストに分かれている。
主な結論は、メソッド間の選択が主にデータ予算の問題であるということである。
両方の修正器は、生の$+0.71$-point平均オフセットを、GPT-4参照の$\pm 0.08$以内、100および1500アンカーで閉じる。
その後、メソッドはロールをスワップします。
線形補正器は100個のアンカーで、KLの発散(0.031対0.058)により約2倍のスコア分布を再構成し、MAE上の流れを結びつける。
1500アンカーで、フローはすべてのメートル法で勝利する(MAE 0.320 vs. 0.359、ピアソン0.922 vs. 0.896、KL 0.026 vs. 0.037)。
ベイズ線形補正器は1500アンカーのかなり下方に飽和しており、残余の$\tanh$型非線型性は、構成上、線形補正が適合しない構造である。
ラベルが大きくなるにつれて、フローは改善され続けます。
これらの知見を,運用デプロイメントの明確な決定ルールに変換する。
関連論文リスト
- Calibrate, Don't Curate: Label-Efficient Estimation from Noisy LLM Judges [3.974554103907186]
ラベル付きキャリブレーションデータを用いたマルチジャッジ評価では、弱い判断を精度だけで破棄しないことが示されている。
本稿では, 適切なスコアリングルール下での最適校正リスクが, 付加的な判定信号が利用可能になった場合に増大しないことを示すオラクル分析による逆転について説明する。
論文 参考訳(メタデータ) (2026-05-10T18:49:58Z) - Decodable but Not Corrected by Fixed Residual-Stream Linear Steering: Evidence from Medical LLM Failure Regimes [4.738949927143789]
隠れ状態における線形デオード可能な故障信号が、それらの故障を修正するために活用できるかどうかを検討する。
固定されたリニアステアリングファミリーが修正に利用できない場合でも、デオード可能な故障構造がポストジェネレーションの信頼性評価をサポートすることがわかった。
論文 参考訳(メタデータ) (2026-05-07T05:58:38Z) - Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Criterion-referenceability determines LLM-as-a-judge validity across physics assessment formats [0.01116979912801043]
我々は、GPT-5.2、Grok 4.1、Claude Opus 4.5、DeepSeek-V3.2、Gemini Pro 3、および盲目、解答、偽解、そして模範的な条件下でのヒトマーカーに対する委員会集計を比較した。
n=771ドルのブラインド大学試験の質問に対して、モデルは差別的妥当性の強い分数平均絶対誤差(fMAE)$approx 0.22$を達成する。
$n=55$スクリプト全体において、盲目のAIマーキングは人間のマーキングよりも厳格で可変的であり、差別的妥当性はすでに貧弱である。
論文 参考訳(メタデータ) (2026-03-16T02:09:06Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - Reinforcement Learning with Verifiable yet Noisy Rewards under Imperfect Verifiers [90.50039419576807]
RLVR(Reinforcement Learning with Verifiable Rewards)は、人為的なラベル付けを避けるために、自動検証に対するポリシーを訓練する。
認証ハッキングの脆弱性を軽減するため、多くのRLVRシステムはトレーニング中にバイナリ$0,1$の報酬を破棄する。
この選択にはコストがかかる:textitfalse negatives(正しい回答、FNを拒絶)とtextitfalse positives(間違った回答、FPを受け入れる)を導入する。
論文 参考訳(メタデータ) (2025-10-01T13:56:44Z) - Anchor-MoE: A Mean-Anchored Mixture of Experts For Probabilistic Regression [0.0]
本稿では,確率的および点回帰の両方を扱うAnchored Mixture of Experts (Anchor-MoE)モデルを提案する。
Anchor-MoE がminimax-optimal $L2$ risk rate を達成することを示す。
RMSEとNLLの強いNGベースラインと一貫して一致または超える。
論文 参考訳(メタデータ) (2025-08-22T21:12:41Z) - Technical report on label-informed logit redistribution for better domain generalization in low-shot classification with foundation models [3.938980910007962]
信頼度校正は、基礎モデルに基づく現実世界の意思決定システムにおいて、新たな課題である。
本研究では,微調整の際,不正分類を罰する損失目標に組み込んだペナルティを提案する。
CMP(textitconfidence misalignment penalty)と呼ぶ。
論文 参考訳(メタデータ) (2025-01-29T11:54:37Z) - Localized Calibration: Metrics and Recalibration [133.07044916594361]
完全大域キャリブレーションと完全個別化キャリブレーションのギャップにまたがる細粒度キャリブレーション指標を提案する。
次に,局所再校正法であるLoReを導入し,既存の校正法よりもLCEを改善する。
論文 参考訳(メタデータ) (2021-02-22T07:22:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。