論文の概要: Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints
- arxiv url: http://arxiv.org/abs/2503.01747v2
- Date: Tue, 04 Mar 2025 11:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:26:42.004175
- Title: Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints
- Title(参考訳): 位置: 数百のデータポイント未満の LLM のeval で CLT を使用してはいけない。
- Authors: Sam Bowyer, Laurence Aitchison, Desi R. Ivanova,
- Abstract要約: 我々は、CLTに基づく不確実性定量化手法は、数千の例からなるベンチマークでは適切であるが、より小型で高度に専門化されたベンチマークに依存する評価に対して、適切な不確実性評価を提供することができないと論じる。
これらの小さなデータ設定では、CLTベースの手法は非常に貧弱で、通常劇的に不確実性を過小評価する。
より一般的なシナリオにおいて、実装が容易で、より適切な代替の頻繁な手法とベイズ的手法を推奨する。
- 参考スコア(独自算出の注目度): 24.571895993084574
- License:
- Abstract: Rigorous statistical evaluations of large language models (LLMs), including valid error bars and significance testing, are essential for meaningful and reliable performance assessment. Currently, when such statistical measures are reported, they typically rely on the Central Limit Theorem (CLT). In this position paper, we argue that while CLT-based methods for uncertainty quantification are appropriate when benchmarks consist of thousands of examples, they fail to provide adequate uncertainty estimates for LLM evaluations that rely on smaller, highly specialized benchmarks. In these small-data settings, we demonstrate that CLT-based methods perform very poorly, usually dramatically underestimating uncertainty (i.e. producing error bars that are too small). We give recommendations for alternative frequentist and Bayesian methods that are both easy to implement and more appropriate in these increasingly common scenarios. We provide a simple Python library for these Bayesian methods at https://github.com/sambowyer/bayes_evals .
- Abstract(参考訳): 大規模言語モデル(LLM)の厳密な統計的評価は,有意かつ信頼性の高い性能評価には不可欠である。
現在、そのような統計的措置が報告されている場合、それらは通常中央極限定理(CLT)に依存している。
本稿では,CLTに基づく不確実性定量化手法が,数千の例からなるベンチマークにおいて適切である一方で,より小型で高度に専門化されたベンチマークに依存するLCM評価に対して,適切な不確実性推定を行うことができないことを論じる。
これらの小さなデータ設定では、CLTベースの手法は非常に貧弱で、通常劇的に不確実性(すなわち、小さすぎるエラーバーの生成)を過小評価する。
より一般的なシナリオにおいて、実装が容易で、より適切な代替の頻繁な手法とベイズ的手法を推奨する。
https://github.com/sambowyer/bayes_evals でこれらの Bayes メソッド用の単純な Python ライブラリを提供しています。
関連論文リスト
- Distribution-Free Calibration of Statistical Confidence Sets [2.283561089098417]
本研究では,TRUSTとTRUST++という2つの新しい手法を導入する。
我々は,本手法が既存のアプローチ,特に小サンプル方式よりも優れていることを実証した。
論文 参考訳(メタデータ) (2024-11-28T20:45:59Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。
Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。
本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:49:37Z) - How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。
自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。
本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文 参考訳(メタデータ) (2024-02-16T15:48:33Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - Locally Valid and Discriminative Confidence Intervals for Deep Learning
Models [37.57296694423751]
不確実性情報は有効(保証対象)で差別的(予想されるリスクが高い場合にさらに不確実)でなければならない
既存のベイジアン法の多くは、頻繁なカバレッジ保証がなく、通常モデルのパフォーマンスに影響を与える。
ほぼどんな深層学習モデルに対しても,識別的信頼区間(CI)を構築するための簡易かつ効率的かつ軽量な手法であるLVD(Locally Valid and Discriminative confidence intervals)を提案する。
論文 参考訳(メタデータ) (2021-06-01T04:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。