論文の概要: Precise Model Benchmarking with Only a Few Observations
- arxiv url: http://arxiv.org/abs/2410.05222v1
- Date: Mon, 7 Oct 2024 17:26:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 23:39:03.156636
- Title: Precise Model Benchmarking with Only a Few Observations
- Title(参考訳): わずかな観測しか持たない高精度モデルベンチマーク
- Authors: Riccardo Fogliato, Pratik Patil, Nil-Jana Akpinar, Mathew Monfort,
- Abstract要約: 本稿では,各サブグループの直接推定と回帰推定を個別にバランスする経験的ベイズ推定器を提案する。
EBは、直接的および回帰的アプローチと比較して、LCM性能のより正確な推定を一貫して提供する。
- 参考スコア(独自算出の注目度): 6.092112060364272
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How can we precisely estimate a large language model's (LLM) accuracy on questions belonging to a specific topic within a larger question-answering dataset? The standard direct estimator, which averages the model's accuracy on the questions in each subgroup, may exhibit high variance for subgroups (topics) with small sample sizes. Synthetic regression modeling, which leverages the model's accuracy on questions about other topics, may yield biased estimates that are too unreliable for large subgroups. We prescribe a simple yet effective solution: an empirical Bayes (EB) estimator that balances direct and regression estimates for each subgroup separately, improving the precision of subgroup-level estimates of model performance. Our experiments on multiple datasets show that this approach consistently provides more precise estimates of the LLM performance compared to the direct and regression approaches, achieving substantial reductions in the mean squared error. Confidence intervals for EB estimates also have near-nominal coverage and are narrower compared to those for the direct estimator. Additional experiments on tabular and vision data validate the benefits of this EB approach.
- Abstract(参考訳): 大規模問合せデータセット内の特定のトピックに属する質問に対して,大規模言語モデル(LLM)の精度を正確に見積もるには,どうすればよいのか?
各部分群における質問に対するモデルの精度を平均化する標準直接推定器は、小さなサンプルサイズを持つ部分群(トピック)に対して高い分散を示すことができる。
他のトピックに関する質問に対してモデルの正確性を活用する合成回帰モデリングは、大きなサブグループでは信頼できない偏りのある推定値を得ることができる。
実験的ベイズ(EB)推定器は各サブグループの直接推定と回帰推定を個別にバランスさせ、モデル性能のサブグループレベル推定の精度を向上させる。
複数のデータセットに対する実験により,本手法は直接的および回帰的手法と比較してLLM性能の精度が向上し,平均二乗誤差の大幅な低減を実現していることがわかった。
EB推定値の信頼区間もほぼ最小であり、直接推定値よりも狭い。
図表および視覚データに関する追加実験は、このEBアプローチの利点を検証する。
関連論文リスト
- Statistical Limits of Adaptive Linear Models: Low-Dimensional Estimation
and Inference [5.924780594614676]
データの任意適応が許された場合、単一の座標を推定する誤差を$sqrtd$の倍にすることができる。
2段階適応線形推定方程式(TALE)を解くことにより,単一座標推定のための新しい推定器を提案する。
論文 参考訳(メタデータ) (2023-10-01T00:45:09Z) - Pushing the Accuracy-Group Robustness Frontier with Introspective
Self-play [16.262574174989698]
Introspective Self-play (ISP)は、データセットバイアス下でのディープニューラルネットワークの不確実性推定を改善するための単純なアプローチである。
ISPはモデル表現のバイアス認識と結果の不確実性評価を確実に改善することを示す。
論文 参考訳(メタデータ) (2023-02-11T22:59:08Z) - Training Experimentally Robust and Interpretable Binarized Regression
Models Using Mixed-Integer Programming [3.179831861897336]
マルチクラス分類タスクに対するロバストかつ解釈可能な二項化回帰モデルをトレーニングするためのモデルに基づくアプローチを提案する。
MIPモデルは、重み付けされた目的を用いて予測マージンとモデルサイズを最適化する。
MIPを用いた頑健かつ解釈可能な二項化回帰モデルのトレーニングの有効性を示す。
論文 参考訳(メタデータ) (2021-12-01T11:53:08Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Flexible Model Aggregation for Quantile Regression [92.63075261170302]
量子回帰は、予測の不確実性を定量化する必要性によって動機付けられた統計学習の基本的な問題である。
条件付き量子モデルの任意の数を集約する手法について検討する。
この論文で検討するモデルはすべて、現代のディープラーニングツールキットに適合します。
論文 参考訳(メタデータ) (2021-02-26T23:21:16Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。