論文の概要: Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks
- arxiv url: http://arxiv.org/abs/2605.11209v1
- Date: Mon, 11 May 2026 20:23:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.407442
- Title: Measuring Five-Nines Reliability: Sample-Efficient LLM Evaluation in Saturated Benchmarks
- Title(参考訳): 5日間の信頼性測定:飽和ベンチマークにおける試料高効率LCM評価
- Authors: Eungyeup Kim, Chenchen Gu, Vashisth Tiwari, J. Zico Kolter,
- Abstract要約: 大規模言語モデル(LLM)は信頼性に敏感なアプリケーションで使用される。
厳密な信頼境界を持つ稀な失敗確率を推定するには、違法に大きなLSM推論サイズが必要である。
そこで本研究では,クロスエントロピー手法を用いて,故障確率入力に集中したサンプリング分布を学習する。
- 参考スコア(独自算出の注目度): 45.86413490112477
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While existing benchmarks demonstrate the near-perfect performance of large language models (LLMs) on various tasks, this apparent saturation often obscures the need for rigorous evaluation of their reliability. In real-world deployment, however, achieving extremely high reliability (e.g., "five-nines" (99.999%) vs. "three-nines" (99.9%)) is fundamentally critical, as this gap results in an order-of-magnitude increase in failures, which is catastrophic in reliability-critical applications. Still, estimating such a rare failure probability with tight confidence bounds requires prohibitively large LLM inference sizes, making standard Monte Carlo evaluation infeasible under limited compute budgets. In this paper, we observe that LLM failures exhibit strong systematic patterns: across broad parameterized input spaces, a small subset of inputs disproportionately accounts for the majority of failures. Leveraging this observation, we propose to learn a sampling distribution concentrated on failure-prone inputs via the cross-entropy method (CEM). We evaluate our framework on three LLMs, Qwen2.5-Math-7B-Instruct, gpt-oss-20b-low, and Gemini 2.5 Flash Lite, across parameterized GSM8K templates and achieve up to 156.22x reduction in required inferences compared to naive uniform sampling. Our estimates reveal that models with indistinguishable accuracy on standard benchmarks can differ substantially in estimated failure rates, underscoring that reliability is a distinct and measurable axis of model quality. Our simple yet practical framework enables the evaluation of extreme reliability in LLMs, a distinct and underexplored dimension of evaluation beyond existing benchmarks, for their growing use in reliability-sensitive applications.
- Abstract(参考訳): 既存のベンチマークでは、様々なタスクにおける大規模言語モデル(LLM)のほぼ完全な性能を示しているが、この明らかな飽和は、その信頼性を厳密に評価する必要性を曖昧にすることが多い。
しかし、現実の展開では、非常に高い信頼性(例えば、"5-nines" (99.999%) と"3-nines" (99.9%))を達成することは、基本的に重要であり、このギャップは、信頼性クリティカルなアプリケーションでは破滅的な失敗のオーダー・オブ・マグニチュードの増加をもたらす。
それでも、そのような稀な失敗確率を厳密な信頼境界で推定するには、制限された計算予算下でのモンテカルロの標準的な評価が不可能になるような、非常に大きなLLM推論サイズが必要である。
本稿では, LLM の故障は, 広いパラメータ化された入力空間にまたがって, 入力の小さなサブセットが, 障害の大部分を不均等に考慮している,という, 強い体系的パターンを示す。
そこで本研究では, クロスエントロピー法 (CEM) を用いて, 故障原因入力に集中したサンプリング分布の学習を提案する。
我々は,GSM8Kテンプレートのパラメータ化により,Qwen2.5-Math-7B-Instruct,gpt-oss-20b-low,Gemini 2.5 Flash Liteの3つのLLM上でのフレームワークの評価を行った。
我々の推定では、標準ベンチマークで区別不能な精度を持つモデルは、予測失敗率で大きく異なる可能性があることを示し、信頼性がモデル品質の異なる測定可能な軸であることを強調した。
我々のシンプルで実用的なフレームワークは、信頼性に敏感なアプリケーションでの利用のために、既存のベンチマークを超越した、明瞭で未探索な評価範囲であるLLMの極端な信頼性の評価を可能にします。
関連論文リスト
- Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation [14.465019747508604]
制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
論文 参考訳(メタデータ) (2026-03-11T21:48:40Z) - ORFuzz: Fuzzing the "Other Side" of LLM Safety -- Testing Over-Refusal [27.26251627767238]
大規模言語モデル(LLM)は、過度に保守的な安全対策のため、誤って良心的なクエリーを拒否する過度な拒絶を示す。
本稿では,LLMオーバーリフレクションの系統的検出と解析を行うための,最初の進化的テストフレームワークORFuzzを紹介する。
論文 参考訳(メタデータ) (2025-08-15T05:03:26Z) - LLMEval-3: A Large-Scale Longitudinal Study on Robust and Fair Evaluation of Large Language Models [51.55869466207234]
静的ベンチマークにおけるLLM(Large Language Models)の既存の評価は、データの汚染やリーダーボードのオーバーフィッティングに弱い。
LLMの動的評価のためのフレームワークであるLLMEval-3を紹介する。
LLEval-3は、220kの卒業生レベルの質問からなるプロプライエタリなバンク上に構築されており、評価実行毎に未確認のテストセットを動的にサンプリングする。
論文 参考訳(メタデータ) (2025-08-07T14:46:30Z) - Importance Sampling is All You Need: Predict LLM's performance on new benchmark by reusing existing benchmark [38.42021928363628]
既存のベンチマークは、(1)高品質なテストスイートと参照ソリューションを構築するためのエスカレートコスト、(2)データ汚染のリスクの増加という2つの大きな課題に直面している。
我々は,コード生成タスク上でのLLM性能のゼロトラストフリー予測を可能にする,プロンプト中心評価フレームワークであるBISを提案する。
本フレームワークでは,コード正当性スコアの平均絶対誤差が1.1%であり,それぞれ0.3%,最悪のエラーが1.9%である。
論文 参考訳(メタデータ) (2025-08-02T05:34:05Z) - Statistical Runtime Verification for LLMs via Robustness Estimation [0.0]
ランタイムクリティカルなアプリケーションにLLM(Large Language Models)を安全にデプロイするためには、逆の堅牢性検証が不可欠である。
ブラックボックス配置環境におけるLCMのオンライン実行時ロバスト性モニタとしての可能性を評価するために,RoMA統計検証フレームワークを適応・拡張するケーススタディを提案する。
論文 参考訳(メタデータ) (2025-04-24T16:36:19Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。
信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。
我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文 参考訳(メタデータ) (2025-02-05T18:58:19Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。