論文の概要: LLM-as-Judge on a Budget
- arxiv url: http://arxiv.org/abs/2602.15481v1
- Date: Tue, 17 Feb 2026 10:35:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.03428
- Title: LLM-as-Judge on a Budget
- Title(参考訳): LLM-as-juudge on a budget
- Authors: Aadirupa Saha, Aniket Wagde, Branislav Kveton,
- Abstract要約: 多武装バンディット理論と濃度不等式を利用する原理的分散適応アプローチを提案する。
本アルゴリズムは, 最悪値推定誤差が$tildeOleft(sqrtfracsum_i=1K_i2Bright)$であることを示す。
emphSummarize-From-Feedback と emphHelpSteer2 の実験により,本手法が一様アロケーションを著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 35.393598355979385
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-as-a-judge has emerged as a cornerstone technique for evaluating large language models by leveraging LLM reasoning to score prompt-response pairs. Since LLM judgments are stochastic, practitioners commonly query each pair multiple times to estimate mean scores accurately. This raises a critical challenge: given a fixed computational budget $B$, how to optimally allocate queries across $K$ prompt-response pairs to minimize estimation error? % We present a principled variance-adaptive approach leveraging multi-armed bandit theory and concentration inequalities. Our method dynamically allocates queries based on estimated score variances, concentrating resources where uncertainty is highest. Further, our algorithm is shown to achieve a worst-case score-estimation error of $\tilde{O}\left(\sqrt{\frac{\sum_{i=1}^K σ_i^2}{B}}\right)$, $σ_i^2$ being the unknown score variance for pair $i \in [K]$ with near-optimal budget allocation. % Experiments on \emph{Summarize-From-Feedback} and \emph{HelpSteer2} demonstrate that our method significantly outperforms uniform allocation, reducing worst-case estimation error while maintaining identical budgets. Our work establishes a theoretical foundation for efficient LLM evaluation with practical implications for AI safety, model alignment, and automated assessment at scale.
- Abstract(参考訳): LLM-as-a-judgeは、LLM推論を利用してプロンプト-レスポンスペアをスコアリングすることで、大規模言語モデルを評価するための基礎技術として登場した。
LLM判定は確率的であるため、実践者は平均スコアを正確に推定するために、各ペアを複数回問い合わせることが多い。
固定された計算予算が$B$であれば、どのように推定エラーを最小限に抑えるために$K$のプロンプトレスポンスペアにクエリを最適に割り当てるか?
%)多武装バンディット理論と濃度不等式を利用した分散適応手法を提案する。
提案手法は,不確実性が高い資源に集中して,推定値の分散に基づいてクエリを動的に割り当てる。
さらに,我々のアルゴリズムは,ペア$i \in [K]$に対する未知のスコア分散である$\tilde{O}\left(\sqrt {\frac {\sum_{i=1}^K σ_i^2}{B}}\right)$,$σ_i^2$の最悪のスコア推定誤差を実現する。
%) と<emph{HelpSteer2} の実験では, 同一の予算を維持しながら最悪の推定誤差を低減し, 均一なアロケーションを著しく上回った。
我々の研究は,AIの安全性,モデルアライメント,大規模自動評価といった実践的意味を持つ,効率的なLCM評価のための理論的基盤を確立している。
関連論文リスト
- Improving Value-based Process Verifier via Low-Cost Variance Reduction [24.609940184050043]
大規模言語モデル(LLM)は、幅広いタスクにおいて顕著な成功を収めた。
しかし、特に数学のような複雑な分野において、それらの推論能力は依然として重要な課題である。
正解につながる部分的推論連鎖の確率を推定する値ベースのプロセス検証器は、推論を改善するための有望なアプローチである。
論文 参考訳(メタデータ) (2025-08-14T11:22:29Z) - Log-Sum-Exponential Estimator for Off-Policy Evaluation and Learning [50.93804891554481]
従来の逆確率スコア推定よりも優れた対数推定演算子(log-sum-exponential (LSE)演算子)に基づく新しい推定器を提案する。
我々のLSE推定器は, 重み付き条件下での分散低減とロバスト性を示す。
政治以外の学習シナリオでは、LSE推定器と最適ポリシーの間のパフォーマンスギャップである後悔の限界を確立します。
論文 参考訳(メタデータ) (2025-06-07T17:37:10Z) - Asymptotically Optimal Linear Best Feasible Arm Identification with Fixed Budget [55.938644481736446]
本稿では,誤差確率の指数的減衰を保証し,最適な腕識別のための新しいアルゴリズムを提案する。
我々は,複雑性のレベルが異なる様々な問題インスタンスに対する包括的経験的評価を通じて,アルゴリズムの有効性を検証する。
論文 参考訳(メタデータ) (2025-06-03T02:56:26Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。
我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。
これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Self-Evaluation Guided Beam Search for Reasoning [61.523627290397556]
我々は,Large Language Model (LLM) の推論プロセスのガイドと校正を行うための段階的自己評価機構を導入する。
本稿では,ビームサーチによる自己評価ガイダンスを統合した復号アルゴリズムを提案する。
我々のアプローチは、GSM8K、AQuA、StrategyQAにおいて、対応するCodexバックボンドベースラインをわずかに精度6.34%、9.56%、および5.46%で上回る。
論文 参考訳(メタデータ) (2023-05-01T02:37:59Z) - When are Local Queries Useful for Robust Learning? [25.832511407411637]
本研究では,学習者が局所的なクエリを用いてより多くのパワーを与えられる学習モデルについて検討する。
我々は、ロバストな経験的リスク最小化を行う最初の分布自由アルゴリズムを与える。
我々は、0,1n$でハーフスペースに対してロバストな学習アルゴリズムを与え、その後、精度に縛られた敵に対して$mathbbRn$でハーフスペースに対してロバスト性を保証する。
論文 参考訳(メタデータ) (2022-10-12T11:04:22Z) - Minimum mean-squared error estimation with bandit feedback [10.660855209170586]
平均二乗誤差 (MSE) の意味で, 逐次的に推定を学習する問題を考察する。
2つのMSE推定器を提案し,その濃度特性を解析した。
論文 参考訳(メタデータ) (2022-03-31T05:33:32Z) - Large-Scale Methods for Distributionally Robust Optimization [53.98643772533416]
我々のアルゴリズムは、トレーニングセットのサイズとパラメータの数によらず、多くの評価勾配を必要とすることを証明している。
MNIST と ImageNet の実験により,本手法の 9-36 倍の効率性を持つアルゴリズムの理論的スケーリングが確認された。
論文 参考訳(メタデータ) (2020-10-12T17:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。