論文の概要: Efficient Evaluation of LLM Performance with Statistical Guarantees
- arxiv url: http://arxiv.org/abs/2601.20251v1
- Date: Wed, 28 Jan 2026 04:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.77338
- Title: Efficient Evaluation of LLM Performance with Statistical Guarantees
- Title(参考訳): 統計的保証者によるLLM性能の効率的評価
- Authors: Skyler Wu, Yash Nair, Emmanuel J. Candés,
- Abstract要約: 大規模言語モデルのベンチマークのためのFAQ(Factized Active Querying)を提案する。
FAQは、ハイブリッド分散推論/アクティブラーニングサンプリングポリシーを用いて、質問を適応的に選択する。
FAQは、2つのベンチマークスイートの強いベースラインよりも、有効サンプルサイズが5倍に向上する。
- 参考スコア(独自算出の注目度): 11.703733256169214
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exhaustively evaluating many large language models (LLMs) on a large suite of benchmarks is expensive. We cast benchmarking as finite-population inference and, under a fixed query budget, seek tight confidence intervals (CIs) for model accuracy with valid frequentist coverage. We propose Factorized Active Querying (FAQ), which (a) leverages historical information through a Bayesian factor model; (b) adaptively selects questions using a hybrid variance-reduction/active-learning sampling policy; and (c) maintains validity through Proactive Active Inference -- a finite-population extension of active inference (Zrnic & Candes, 2024) that enables direct question selection while preserving coverage. With negligible overhead cost, FAQ delivers up to $5\times$ effective sample size gains over strong baselines on two benchmark suites, across varying historical-data missingness levels: this means that it matches the CI width of uniform sampling while using up to $5\times$ fewer queries. We release our source code and our curated datasets to support reproducible evaluation and future research.
- Abstract(参考訳): 多くの大規模言語モデル(LLM)をベンチマークで徹底的に評価することは高価である。
我々は, ベンチマークを有限人口推定とみなし, 一定のクエリ予算の下で, モデルの精度向上のための厳密な信頼区間(CI)を求める。
FAQ(Factized Active Querying)を提案する。
(a)ベイズ因子モデルを通じて歴史的情報を活用する。
b)ハイブリッド分散推論/アクティブラーニングサンプリングポリシーを用いて質問を適応的に選択する。
(c) 能動推論の有限個体群拡張 (Zrnic & Candes, 2024) を通じて有効性を維持する。
無視可能なオーバーヘッドコストでは、FAQは、2つのベンチマークスイートの強いベースラインよりも最大5\times$有効なサンプルサイズが、さまざまな履歴データの欠如レベルにわたって得られる。
再現可能な評価と今後の研究を支援するために、ソースコードとキュレートされたデータセットをリリースします。
関連論文リスト
- Audit Me If You Can: Query-Efficient Active Fairness Auditing of Black-Box LLMs [4.673176641454931]
大規模言語モデル(LLM)は、人口統計群にまたがる体系的なバイアスを示す。
対象の公正度測定値に対する不確実性評価として監査を概念化する。
ブラックボックスLLMのクエリ効率監査のためのバウンドアクティブフェアネスオーディタであるBAFAを紹介する。
論文 参考訳(メタデータ) (2026-01-06T15:22:23Z) - Chunks as Arms: Multi-Armed Bandit-Guided Sampling for Long-Context LLM Preference Optimization [56.97588709890706]
LongMab-POは、長文モデリングタスクのための高品質で多様な応答を生成する新しいフレームワークである。
実験の結果,LongMab-POは嗜好データペアの多様性と品質を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-08-19T16:33:55Z) - Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。
コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。
このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。
我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文 参考訳(メタデータ) (2025-03-17T16:15:02Z) - Scalable Best-of-N Selection for Large Language Models via Self-Certainty [75.1351701045874]
Best-of-N selectionは、Large Language Models(LLMs)の推論性能を改善するための重要なテクニックである。
本稿では, LLM出力の固有確率分布を利用して, 外部報酬モデルを必要としない応答品質を推定する, 新規で効率的な指標である自己確実性を提案する。
本研究は, LLM推論能力を向上させるための実用的で効率的な方法として, 自己確実性を確立した。
論文 参考訳(メタデータ) (2025-02-25T19:08:07Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Efficient Detection of LLM-generated Texts with a Bayesian Surrogate Model [14.98695074168234]
本稿では,特に大規模言語モデル(LLM)から機械生成テキストを検出する新しい手法を提案する。
ベイジアンサロゲートモデルを用いて、ベイジアン不確実性に基づいて典型的なサンプルを選択し、典型的なサンプルから他のサンプルへのスコアを補間し、クエリ効率を向上させる。
実験の結果,提案手法はクエリコストの低い既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2023-05-26T04:23:10Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。