論文の概要: When LLMs get significantly worse: A statistical approach to detect model degradations
- arxiv url: http://arxiv.org/abs/2602.10144v1
- Date: Mon, 09 Feb 2026 10:45:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.175626
- Title: When LLMs get significantly worse: A statistical approach to detect model degradations
- Title(参考訳): LLMが著しく悪化すると、モデル劣化を検出する統計的アプローチ
- Authors: Jonas Kübler, Kailash Budhathoki, Matthäus Kleindessner, Xiong Zhou, Junming Yin, Ashish Khetan, George Karypis,
- Abstract要約: 基礎モデルの推論コストと遅延を最小化することが重要な研究領域となっている。
モデル劣化を効率的に検出できる,McNemarのテストに基づく統計的に健全な仮説テストフレームワークを提案する。
実験の結果,0.3%の精度劣化でも,ノイズよりも実際の劣化が確実な原因であることが判明した。
- 参考スコア(独自算出の注目度): 33.63321816712603
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Minimizing the inference cost and latency of foundation models has become a crucial area of research. Optimization approaches include theoretically lossless methods and others without accuracy guarantees like quantization. In all of these cases it is crucial to ensure that the model quality has not degraded. However, even at temperature zero, model generations are not necessarily robust even to theoretically lossless model optimizations due to numerical errors. We thus require statistical tools to decide whether a finite-sample accuracy deviation is an evidence of a model's degradation or whether it can be attributed to (harmless) noise in the evaluation. We propose a statistically sound hypothesis testing framework based on McNemar's test allowing to efficiently detect model degradations, while guaranteeing a controlled rate of false positives. The crucial insight is that we have to confront the model scores on each sample, rather than aggregated on the task level. Furthermore, we propose three approaches to aggregate accuracy estimates across multiple benchmarks into a single decision. We provide an implementation on top of the largely adopted open source LM Evaluation Harness and provide a case study illustrating that the method correctly flags degraded models, while not flagging model optimizations that are provably lossless. We find that with our tests even empirical accuracy degradations of 0.3% can be confidently attributed to actual degradations rather than noise.
- Abstract(参考訳): 基礎モデルの推論コストと遅延を最小化することが重要な研究領域となっている。
最適化アプローチには理論的に損失のない方法や、量子化のような精度保証のない方法が含まれる。
これらすべてのケースにおいて、モデルの品質が劣化しないことを保証することが不可欠です。
しかし、温度ゼロでも、理論上損失のないモデル最適化であっても、モデル生成は必ずしも堅牢ではない。
したがって、有限サンプル精度の偏差がモデルの劣化の証拠であるかどうか、あるいは評価において(無害な)ノイズに起因するかどうかを決定するための統計ツールが必要である。
我々はMcNemarのテストに基づく統計的に健全な仮説テストフレームワークを提案し、モデル劣化を効率的に検出し、偽陽性の制御率を保証した。
重要な洞察は、タスクレベルで集約されるのではなく、各サンプルのモデルスコアに直面する必要があるということです。
さらに,複数のベンチマークにまたがる精度推定を1つの決定に集約する3つの手法を提案する。
我々は、広く採用されているオープンソースLMアセスメント・ハーネス上に実装を行い、この手法が劣化したモデルを正しくフラグ付けするが、無害なモデル最適化をフラグ付けしないことを示すケーススタディを提供する。
実験の結果,0.3%の精度劣化でも,ノイズよりも実際の劣化が確実な原因であることが判明した。
関連論文リスト
- Inference Scaling fLaws: The Limits of LLM Resampling with Imperfect Verifiers [13.823743787003787]
近年の研究では、推論スケーリングにより、より弱い言語モデルがより強力なモデルの精度に適合または超えることを期待している。
より弱いモデルの推論スケーリングの量は、十分に強いモデルの単一サンプル精度に匹敵することができないことを示す。
また、精度以上の偽陽性には、コーディングスタイルの慣行への順守の欠如など、他の望ましくない性質があることも示している。
論文 参考訳(メタデータ) (2024-11-26T15:13:06Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - ALUM: Adversarial Data Uncertainty Modeling from Latent Model
Uncertainty Compensation [25.67258563807856]
本稿では,モデル不確実性とデータ不確実性を扱うALUMという新しい手法を提案する。
提案するALUMはモデルに依存しないため,オーバーヘッドの少ない既存のディープモデルに容易に実装できる。
論文 参考訳(メタデータ) (2023-03-29T17:24:12Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Monitoring Model Deterioration with Explainable Uncertainty Estimation
via Non-parametric Bootstrap [0.0]
一度デプロイされた機械学習モデルを監視することは難しい。
ラベル付きデータが到達範囲を超えている場合、実際のシナリオでモデルをいつ再トレーニングするかを判断するのはさらに難しい。
本研究では,非パラメトリックブートストラップ型不確実性推定とSHAP値を用いて説明可能な不確実性推定を行う。
論文 参考訳(メタデータ) (2022-01-27T17:23:04Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。