論文の概要: Instance-Optimal Estimation with Multiple LLM Judges on a Budget
- arxiv url: http://arxiv.org/abs/2605.23362v1
- Date: Fri, 22 May 2026 08:26:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.26238
- Title: Instance-Optimal Estimation with Multiple LLM Judges on a Budget
- Title(参考訳): 予算上の複数のLCM判定器を用いたインスタンス最適推定
- Authors: Junghyun Lee, Sanghwa Kim, Yassir Jedra, Alexandre Proutière, Se-Young Yun,
- Abstract要約: 我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
- 参考スコア(独自算出の注目度): 84.31744861038106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating large language models increasingly relies on LLM-as-a-judge protocols, but such evaluations remain costly: different judges have different prices and reliabilities, and the difficulty of each prompt-response pair can vary substantially. This raises a basic allocation question: under a fixed budget, how should one distribute evaluation queries across heterogeneous judges and instances to obtain the most accurate score estimates? We formalize this question as *budgeted heteroskedastic multi-judge estimation*. Given $K$ prompt-response pairs, $J$ judges with known costs, and unknown query-judge variances, the goal is to estimate a bounded score vector while minimizing an $\ell_p$-error. Our first contribution is to analyze the inverse-variance weighted estimator (IVWE) and to derive the oracle allocation that minimizes its error rate. Since this allocation depends on the unknown variances, we then address the practical unknown-variance setting by proposing EST-IVWE, an adaptive algorithm that constructs and leverages *optimistically biased* variance estimates to stabilize the empirical allocation. We prove that EST-IVWE matches the oracle IVWE rate up to lower-order terms in the budget. Our second and central theoretical contribution is a matching *local* minimax lower bound, which establishes the instance-optimality of the proposed algorithms. A key technical insight is that Fano-type high-probability arguments are too coarse for this problem: their packing construction loses the local variance structure that governs the optimal allocation. We instead use an Assouad-type in-expectation argument, based on local perturbations, which preserves this structure and yields the sharp allocation-dependent lower bound. Finally, we numerically validate the superiority of our approach over naïve uniform allocation on synthetic and HelpSteer2 datasets.
- Abstract(参考訳): 大規模言語モデルの評価はLSM-as-a-judgeプロトコルにますます依存しているが、このような評価はコストがかかる。
固定予算の下で、不均一な審査員やインスタンスに評価クエリを分散して、最も正確なスコア推定値を得るには、どうすればよいのか?
我々は、この問題を*予算付きヘテロスケダティックなマルチジャッジ推定*として定式化する。
K$のプロンプト-レスポンスペア、J$の既知のコストと未知のクエリ-ジャッジ分散が与えられた場合、目標は、$\ell_p$-errorを最小化しながら、有界スコアベクトルを推定することである。
我々の最初の貢献は、逆分散重み付き推定器(IVWE)を分析し、誤り率を最小化するオラクル割り当てを導出することである。
このアロケーションは未知の分散に依存するため、経験的アロケーションを安定化させるために*最適バイアス*のアロケーション推定を構築し、活用する適応アルゴリズムであるEST-IVWEを提案することで、実用的な未知の分散設定に対処する。
EST-IVWEは,予算の低次項までのオラクルIVWEレートと一致していることを示す。
2つ目の理論的寄与は*local* minimax lower bound であり、提案アルゴリズムのインスタンス最適性を確立する。
重要な技術的洞察は、ファノ型の高確率論証がこの問題には大きすぎることであり、それらのパッキング構造は最適な割り当てを管理する局所的な分散構造を失う。
代わりに、局所摂動に基づくアソアッド型非探索的議論を用い、この構造を保ち、鋭いアロケーション依存の下界が得られる。
最後に、合成およびHelpSteer2データセット上でのネーブ均一割り当てに対するアプローチの優位性を数値的に検証する。
関連論文リスト
- Reasoning Is Not Free: Robust Adaptive Cost-Efficient Routing for LLM-as-a-Judge [4.511996087821266]
Reasoning-capable large language model (LLM) は、最近自動判断器として採用されている。
本研究では,明示的推論により,構造化された検証を必要とするタスクの判断精度が大幅に向上することを示す。
本稿では、推論と非推論の判断を選択可能なロバスト適応コスト効率ルーティング(RACER)を提案する。
論文 参考訳(メタデータ) (2026-05-11T16:30:20Z) - Unbiased and Biased Variance-Reduced Forward-Reflected-Backward Splitting Methods for Stochastic Composite Inclusions [3.6997773420183866]
本研究では,フォワード反射逆スプリッティング法(FRBS)のための新しい分散還元法を開発した。
ミニバッチのような偏見のない推定器とは異なり、偏見のある変種の開発は基本的な技術的課題に直面している。
ループレスSVRGやSAGAを利用する場合,$mathcalO(n2/3-2)$と$mathcalO(-10/3)$が最良であることを示す。
論文 参考訳(メタデータ) (2026-03-16T17:39:25Z) - Evidence-based Distributional Alignment for Large Language Models [58.65469623911573]
LLM分布推定の忠実度とロバスト性を改善する証拠に基づくアライメント手法であるEvi-DAを提案する。
対象国が与えられた場合、Evi-DAは関連するWorld Values Survey項目とその回答分布を検索し、オプション毎に粗いヴェルツェル値シグネチャを予測し、国条件の回答分布を構造化形式で推測する。
論文 参考訳(メタデータ) (2026-03-03T03:34:06Z) - ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - LLM-as-Judge on a Budget [35.393598355979385]
多武装バンディット理論と濃度不等式を利用する原理的分散適応アプローチを提案する。
本アルゴリズムは, 最悪値推定誤差が$tildeOleft(sqrtfracsum_i=1K_i2Bright)$であることを示す。
emphSummarize-From-Feedback と emphHelpSteer2 の実験により,本手法が一様アロケーションを著しく上回ることを示した。
論文 参考訳(メタデータ) (2026-02-17T10:35:41Z) - Additive Distributionally Robust Ranking and Selection [0.8283940114367679]
そこで本研究では,$k + m - 1$の事前仮説クリティカルシナリオのみをサンプリングすることを目的とした,単純な加算割当(AA)手順を提案する。
AAが一貫したものであり、驚くべきことに、最も強い意味で付加性を達成することを証明します。
結果は、DRR&Sの加法構造に対する新しい、そして反直観的な洞察を与える。
論文 参考訳(メタデータ) (2025-09-07T17:36:29Z) - Decision from Suboptimal Classifiers: Excess Risk Pre- and Post-Calibration [52.70324949884702]
バッチ二分決定における近似的後続確率を用いた余剰リスクの定量化を行う。
我々は、再校正のみが後悔のほとんどに対処する体制と、後悔が集団的損失に支配される体制を識別する。
NLP実験では、これらの量によって、より高度なポストトレーニングの期待値が運用コストに値するかどうかが分かる。
論文 参考訳(メタデータ) (2025-03-23T10:52:36Z) - Optimal Multi-Distribution Learning [88.3008613028333]
マルチディストリビューション学習は、$k$の異なるデータ分散における最悪のリスクを最小限に抑える共有モデルを学ぶことを目指している。
本稿では, (d+k)/varepsilon2の順に, サンプルの複雑さを伴って, ヴァレプシロン最適ランダム化仮説を導出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-08T16:06:29Z) - Minimum mean-squared error estimation with bandit feedback [10.660855209170586]
平均二乗誤差 (MSE) の意味で, 逐次的に推定を学習する問題を考察する。
2つのMSE推定器を提案し,その濃度特性を解析した。
論文 参考訳(メタデータ) (2022-03-31T05:33:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。