Fugu-MT 論文翻訳(概要): Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints

論文の概要: Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints

arxiv url: http://arxiv.org/abs/2503.01747v2
Date: Tue, 04 Mar 2025 11:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.121172
Title: Position: Don't use the CLT in LLM evals with fewer than a few hundred datapoints
Title（参考訳）: 位置: 数百のデータポイント未満の LLM のeval で CLT を使用してはいけない。
Authors: Sam Bowyer, Laurence Aitchison, Desi R. Ivanova,
Abstract要約: 我々は、CLTに基づく不確実性定量化手法は、数千の例からなるベンチマークでは適切であるが、より小型で高度に専門化されたベンチマークに依存する評価に対して、適切な不確実性評価を提供することができないと論じる。これらの小さなデータ設定では、CLTベースの手法は非常に貧弱で、通常劇的に不確実性を過小評価する。より一般的なシナリオにおいて、実装が容易で、より適切な代替の頻繁な手法とベイズ的手法を推奨する。
参考スコア（独自算出の注目度）: 24.571895993084574
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Rigorous statistical evaluations of large language models (LLMs), including valid error bars and significance testing, are essential for meaningful and reliable performance assessment. Currently, when such statistical measures are reported, they typically rely on the Central Limit Theorem (CLT). In this position paper, we argue that while CLT-based methods for uncertainty quantification are appropriate when benchmarks consist of thousands of examples, they fail to provide adequate uncertainty estimates for LLM evaluations that rely on smaller, highly specialized benchmarks. In these small-data settings, we demonstrate that CLT-based methods perform very poorly, usually dramatically underestimating uncertainty (i.e. producing error bars that are too small). We give recommendations for alternative frequentist and Bayesian methods that are both easy to implement and more appropriate in these increasingly common scenarios. We provide a simple Python library for these Bayesian methods at https://github.com/sambowyer/bayes_evals .
Abstract（参考訳）: 大規模言語モデル(LLM)の厳密な統計的評価は,有意かつ信頼性の高い性能評価には不可欠である。現在、そのような統計的措置が報告されている場合、それらは通常中央極限定理(CLT)に依存している。本稿では,CLTに基づく不確実性定量化手法が,数千の例からなるベンチマークにおいて適切である一方で,より小型で高度に専門化されたベンチマークに依存するLCM評価に対して,適切な不確実性推定を行うことができないことを論じる。これらの小さなデータ設定では、CLTベースの手法は非常に貧弱で、通常劇的に不確実性(すなわち、小さすぎるエラーバーの生成)を過小評価する。より一般的なシナリオにおいて、実装が容易で、より適切な代替の頻繁な手法とベイズ的手法を推奨する。 https://github.com/sambowyer/bayes_evals でこれらの Bayes メソッド用の単純な Python ライブラリを提供しています。

関連論文リスト

TRUST: Test-time Resource Utilization for Superior Trustworthiness [15.031121920821109]
このようなノイズの影響を考慮し,より信頼性の高い信頼度推定を行う新しいテスト時間最適化法を提案する。このスコアは単調なサブセット選択関数を定義し、低いスコアを持つサンプルを除去すると、集団の精度は一貫して上昇する。
論文参考訳（メタデータ） (2025-06-06T12:52:32Z)
Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。解析の結果,n-gram法は高いF1スコアが得られることがわかった。 MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文参考訳（メタデータ） (2025-05-30T06:37:39Z)
Efficient Uncertainty Estimation via Distillation of Bayesian Large Language Models [12.69571386421462]
本稿では,不確実性推定のためのテスト時間サンプリングの必要性を解消する可能性を検討する。既成のベイズ式LLMを非ベイズ式LLMに蒸留し, 予測分布のばらつきを最小限に抑える。実験により,トレーニングデータにおける不確実性推定能力は,未確認テストデータにうまく一般化できることが実証された。
論文参考訳（メタデータ） (2025-05-16T22:26:03Z)
Distribution-Free Calibration of Statistical Confidence Sets [2.283561089098417]
本研究では,TRUSTとTRUST++という2つの新しい手法を導入する。我々は,本手法が既存のアプローチ,特に小サンプル方式よりも優れていることを実証した。
論文参考訳（メタデータ） (2024-11-28T20:45:59Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
我々はこの空間を探索するために$textitadaptive$アプローチを提案する。我々は、マルチアームの包帯に頼り、次の(メソッド、バリデーションサンプル)ペアを順次識別して評価する。典型的資源の5～15%のみを用いて,トップパフォーマンスの手法を同定できることを示す。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文参考訳（メタデータ） (2024-06-12T16:41:31Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
A Channel-ensemble Approach: Unbiased and Low-variance Pseudo-labels is Critical for Semi-supervised Classification [61.473485511491795]
半教師付き学習(SSL)はコンピュータビジョンにおける実践的な課題である。 Pseudo-label (PL) メソッド、例えば FixMatch や FreeMatch は SSL で State of The Art (SOTA) のパフォーマンスを取得する。本稿では,複数の下位PLを理論的に保証された非偏りと低分散のPLに集約する,軽量なチャネルベースアンサンブル法を提案する。
論文参考訳（メタデータ） (2024-03-27T09:49:37Z)
How Reliable Are Automatic Evaluation Methods for Instruction-Tuned LLMs? [3.1706553206969925]
このような手法のメタ評価を行い、その信頼性を幅広いタスクにわたって評価する。自動評価手法は、特定の条件下で人間の評価を近似することができるが、その妥当性は文脈に依存している。本研究は,命令調整型LLMの開発と評価において,自動手法の適用方法や解釈方法の理解を深めるものである。
論文参考訳（メタデータ） (2024-02-16T15:48:33Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Locally Valid and Discriminative Confidence Intervals for Deep Learning Models [37.57296694423751]
不確実性情報は有効(保証対象)で差別的(予想されるリスクが高い場合にさらに不確実)でなければならない既存のベイジアン法の多くは、頻繁なカバレッジ保証がなく、通常モデルのパフォーマンスに影響を与える。ほぼどんな深層学習モデルに対しても,識別的信頼区間(CI)を構築するための簡易かつ効率的かつ軽量な手法であるLVD(Locally Valid and Discriminative confidence intervals)を提案する。
論文参考訳（メタデータ） (2021-06-01T04:39:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。