論文の概要: Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation
- arxiv url: http://arxiv.org/abs/2604.03257v1
- Date: Wed, 11 Mar 2026 21:48:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.559308
- Title: Robust LLM Performance Certification via Constrained Maximum Likelihood Estimation
- Title(参考訳): 制約付き最大近似推定によるロバストLLM性能認証
- Authors: Minghe Shen, Ananth Balashankar, Adam Fisch, David Madras, Miguel Rodrigues,
- Abstract要約: 制約付き最大自由度推定(MLE)に基づくLLM故障率推定の新しい,実用的で効率的なアプローチを提案する。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
- 参考スコア(独自算出の注目度): 14.465019747508604
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to rigorously estimate the failure rates of large language models (LLMs) is a prerequisite for their safe deployment. Currently, however, practitioners often face a tradeoff between expensive human gold standards and potentially severely-biased automatic annotation schemes such as "LLM-as-a-Judge" labeling. In this paper, we propose a new, practical, and efficient approach to LLM failure rate estimation based on constrained maximum-likelihood estimation (MLE). Our method integrates three distinct signal sources: (i) a small, high-quality human-labeled calibration set, (ii) a large corpus of LLM-judge annotations, and, most importantly, (iii) additional side information via domain-specific constraints derived from known bounds on judge performance statistics. We validate our approach through a comprehensive empirical study, benchmarking it against state-of-the-art baselines like Prediction-Powered Inference (PPI). Across diverse experimental regimes -- spanning varying judge accuracies, calibration set sizes, and LLM failure rates -- our constrained MLE consistently delivers more accurate and lower-variance estimates than existing methods. By moving beyond the "black-box" use of automated judges to a flexible framework, we provide a principled, interpretable, and scalable pathway towards LLM failure-rate certification.
- Abstract(参考訳): 大規模言語モデル(LLM)の失敗率を厳格に見積もる能力は、安全なデプロイメントの前提条件である。
しかし、現在では、高価な金の基準と「LLM-as-a-Judge」のラベル付けのような過度にバイアスのかかる自動アノテーションとのトレードオフに直面していることが多い。
本稿では,制約付き最大類似度推定(MLE)に基づくLLM故障率推定のための,新しい,実用的で効率的なアプローチを提案する。
我々の方法は3つの異なる信号源を統合する。
(i)小型で高品質な人ラベルキャリブレーションセット
(ii) LLM-judgeアノテーションの大規模なコーパス、そして最も重要なのは、
三 判定性能統計上の既知の境界から導かれるドメイン固有の制約による追加の側情報。
我々は、予測パワー推論(PPI)のような最先端のベースラインに対して、包括的な実証研究を通じてアプローチを検証する。
さまざまな実験体制 – さまざまな判断精度,キャリブレーションセットサイズ,LSM失敗率 – にまたがる – にわたって,当社の制約されたMLEは,既存の方法よりも正確で低分散の見積を一貫して提供しています。
自動判断を“ブラックボックス”からフレキシブルなフレームワークに移行することで、LLMの失敗率認定への原則付き、解釈可能な、スケーラブルなパスを提供します。
関連論文リスト
- Reasoning with Confidence: Efficient Verification of LLM Reasoning Steps via Uncertainty Heads [104.9566359759396]
データ駆動の不確実性スコアに基づくステップレベルの推論検証の軽量な代替案を提案する。
本研究は, LLMの内部状態が不確実性を符号化し, 信頼性の高い検証信号として機能することが示唆された。
論文 参考訳(メタデータ) (2025-11-09T03:38:29Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Beyond Single-Point Judgment: Distribution Alignment for LLM-as-a-Judge [24.862965044243168]
従来の手法は、人間の評価において固有の多様性と不確実性を見越して、単一点評価に依存していた。
本研究では,LLM生成した判定分布と経験的人的分布とを明確に整合させる新しいトレーニングフレームワークを提案する。
我々のフレームワークは、既存のオープンソースLCMや従来の単一点アライメント手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2025-05-18T08:33:09Z) - Automatic Calibration for Membership Inference Attack on Large Language Models [11.497378121062251]
我々は、ACMIA(Automatic Membership Inference Attack)と呼ばれる新しいフレームワークを紹介する。
ACMIAは調整可能な温度を校正し、確率を効果的に出力する。
提案した攻撃は、非常に効果的で、堅牢で、一般化可能である。
論文 参考訳(メタデータ) (2025-05-06T10:15:05Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Uncertainty Estimation and Quantification for LLMs: A Simple Supervised Approach [6.209293868095268]
LLMにおける不確実性推定と校正の問題について検討する。
LLMの応答の不確かさを推定するためにラベル付きデータセットを利用する教師付きアプローチを提案する。
本手法は,ブラックボックス,グレイボックス,ホワイトボックスなど,モデルアクセシビリティの異なるレベルに適応し,実装が容易である。
論文 参考訳(メタデータ) (2024-04-24T17:10:35Z) - Tight Mutual Information Estimation With Contrastive Fenchel-Legendre
Optimization [69.07420650261649]
我々はFLOと呼ばれる新しい,シンプルで強力なコントラストMI推定器を提案する。
実証的に、我々のFLO推定器は前者の限界を克服し、より効率的に学習する。
FLOの有効性は、広範囲なベンチマークを用いて検証され、実際のMI推定におけるトレードオフも明らかにされる。
論文 参考訳(メタデータ) (2021-07-02T15:20:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。