論文の概要: Efficient Inference for Noisy LLM-as-a-Judge Evaluation
- arxiv url: http://arxiv.org/abs/2601.05420v1
- Date: Thu, 08 Jan 2026 22:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.788976
- Title: Efficient Inference for Noisy LLM-as-a-Judge Evaluation
- Title(参考訳): 雑音型LCM-as-a-Judge評価の効率的推論
- Authors: Yiqun T Chen, Sizhu Lu, Sijia Li, Moran Guo, Shengyi Li,
- Abstract要約: 大規模言語モデル(LLM)は、生成的AI出力の自動評価器としてますます使われている。
実際には、LLMの判断は根底にある真実の完全な予測であり、体系的な非ランダムな誤りを示すことができる。
- 参考スコア(独自算出の注目度): 8.2511120576505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used as automatic evaluators of generative AI outputs, a paradigm often referred to as "LLM-as-a-judge." In practice, LLM judges are imperfect predictions for the underlying truth and can exhibit systematic, non-random errors. Two main approaches have recently been proposed to address this issue: (i) direct measurementerror correction based on misclassification models such as Rogan-Gladen-style estimators, and (ii) surrogate-outcome approaches such as prediction-powered inference (PPI), which correct bias by calibrating prediction residuals on a small set of gold-standard human labels. In this paper, we systematically study the performance of these two approaches for estimating mean parameters (e.g., average benchmark scores or pairwise win rates). Leveraging tools from semiparametric efficiency theory, we unify the two classes of estimators by deriving explicit forms of efficient influence function (EIF)-based efficient estimators and characterize conditions under which PPI-style estimators attain strictly smaller asymptotic variance than measurement-error corrections. We verify our theoretical results in simulations and demonstrate the methods on real-data examples. We provide an implementation of the benchmarked methods and comparison utilities at https://github.com/yiqunchen/debias-llm-as-a-judge.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、しばしば「LLM-as-a-judge」と呼ばれるパラダイムである生成AI出力の自動評価手段として、ますます使われている。
実際には、LLMの判断は根底にある真実の完全な予測であり、体系的な非ランダムな誤りを示すことができる。
この問題に対処する2つの主要なアプローチが最近提案されている。
一 ローガン・グラデン式推定器等の誤分類モデルに基づく直接測定誤差補正等
(II) 予測パワー推論(PPI)のような代理出力アプローチは, 金標準ラベルの小さなセットの予測残差を校正することでバイアスを補正する。
本稿では,平均パラメータ(平均ベンチマークスコア,ペアワイズ勝利率)を推定するための2つの手法の性能を体系的に検討する。
半パラメトリック効率理論からツールを応用し、EIFに基づく効率的な影響関数の明示的な形式を導出し、2種類の推定器を統一し、PPIスタイルの推定器が測定誤差補正よりも厳密に漸近ばらつきを小さくする条件を特徴付ける。
シミュレーションで理論結果を検証し,実データを用いた手法を実証する。
ベンチマークされたメソッドの実装と比較ユーティリティをhttps://github.com/yiqunchen/debias-llm-as-a-judgeで提供します。
関連論文リスト
- Efficient Inference Using Large Language Models with Limited Human Data: Fine-Tuning then Rectification [2.503562746177713]
微調整と修正を併用したフレームワークを開発し,2段階にわたる限定ラベル付きサンプルを最適に割り当てる。
この知見に基づいて、実験的なスケーリング法則を利用して、微細調整と修正の段階でサンプルを最適に分割するデータ駆動手法を開発した。
実験的な分析により, 微調整と修正のみを用いた場合と比較して, 推定性能と推測性能が改善された。
論文 参考訳(メタデータ) (2025-11-23T05:23:21Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Statistical Inference for Generative Model Comparison [8.366326412272898]
本研究では,異なる生成モデルがテストサンプルの分布にどの程度近いかを比較する手法を開発した。
提案手法では,生成モデルと未知のテスト分布との距離を測定するためにKL(Kullback-Leibler)偏差を用いる。
条件付き生成モデルの比較に拡張し、Edgeworth拡張を利用して限定データ設定に対処する。
論文 参考訳(メタデータ) (2025-01-31T05:31:05Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - Towards Calibrated Robust Fine-Tuning of Vision-Language Models [97.19901765814431]
本研究は、視覚言語モデルにおいて、OOD精度と信頼性校正の両方を同時に改善する頑健な微調整法を提案する。
OOD分類とOOD校正誤差は2つのIDデータからなる共有上限を持つことを示す。
この知見に基づいて,最小の特異値を持つ制約付きマルチモーダルコントラスト損失を用いて微調整を行う新しいフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-03T05:41:25Z) - Leveraging Variational Autoencoders for Parameterized MMSE Estimation [10.141454378473972]
条件付き線形最小二乗誤差推定器のパラメータ化のための変分オートエンコーダに基づくフレームワークを提案する。
導出した推定器は、推定問題の生成前として変分オートエンコーダを用いて最小平均2乗誤差推定器を近似する。
提案手法と最小平均二乗誤差推定器の差分を限定して厳密な解析を行う。
論文 参考訳(メタデータ) (2023-07-11T15:41:34Z) - The Challenges of Hyperparameter Tuning for Accurate Causal Effect Estimation [2.43420394129881]
因果推論には多くのML手法(因果推定器)が提案されている。
非因果予測タスクでは、メトリクスのチューニングの選択にはコンセンサスがあり、モデルの比較が簡単になる。
因果推論タスクについては、そのようなコンセンサスにはまだ到達していないため、因果モデルの比較は困難である。
論文 参考訳(メタデータ) (2023-03-02T17:03:02Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。