論文の概要: Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization
- arxiv url: http://arxiv.org/abs/2605.10405v1
- Date: Mon, 11 May 2026 11:43:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.778114
- Title: Valid Best-Model Identification for LLM Evaluation via Low-Rank Factorization
- Title(参考訳): 低ランク因子化によるLCM評価のための最適モデル同定
- Authors: Elad Tolochinsky, Yaniv Tenzer, Yaniv Romano,
- Abstract要約: 統計的妥当性を損なうことなく,MABと安価な予測スコアを組み合わせた原理的枠組みを提案する。
分散を低減するために低ランク予測を用いた各モデルの性能の2倍頑健な推定器を導出する。
実世界のベンチマークによる実証的な結果から,本手法は必要な評価回数を削減し,計算とコストに有意義な節約をもたらすことが示された。
- 参考スコア(独自算出の注目度): 17.34147279018477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting the best large language model (LLM) for a fixed benchmark is often expensive, since exhaustive evaluation requires running every model on every example. Multi-armed bandit (MAB) algorithms can reduce the number of LLM calls by sequentially selecting the next model-example pair to evaluate, thereby avoiding wasted evaluations on clearly underperforming models. Further savings can be achieved by predicting model scores from the partially observed model-example score matrix using low-rank factorization. However, such predictions are not ground truth: they can be biased and may therefore lead to incorrect identification of the best model. In this work, we propose a principled framework that combines MAB with cheap predicted scores without compromising statistical validity. Specifically, we derive doubly robust estimators of each model's performance that use the low-rank predictions to reduce variance. This enables the construction of valid finite-sample confidence intervals in our setting, where models are selected adaptively and examples are sampled without replacement. Empirical results on real-world benchmarks show that our approach reduces the number of required evaluations, yielding meaningful savings in compute and cost while accurately identifying the best-performing model.
- Abstract(参考訳): 固定ベンチマークで最高の大規模言語モデル(LLM)を選択することは、すべての例ですべてのモデルを実行する必要があるため、しばしばコストがかかる。
マルチアーム・バンディット(MAB)アルゴリズムは、次のモデルとサンプルのペアを順次選択して評価することで、LLM呼び出しの回数を減らすことができる。
低ランク因数分解を用いて、部分的に観察されたモデル-サンプルスコア行列からモデルスコアを予測することにより、さらなる節約が可能となる。
しかし、そのような予測は基礎的な真実ではなく、バイアスを受けることができ、したがって最良のモデルの誤った識別につながる可能性がある。
本研究では,MABを統計的妥当性を損なうことなく,安価な予測スコアと組み合わせた原理的枠組みを提案する。
具体的には、各モデルの性能を2倍に頑健に推定し、低ランク予測を用いて分散を減少させる。
これにより、モデルが適応的に選択され、サンプルが置換せずにサンプル化されるような、有効な有限サンプル信頼区間の構築が可能になる。
実世界のベンチマークによる実証的な結果から,本手法は要求される評価数を削減し,計算とコストの有意義な削減を実現し,最適性能のモデルを正確に同定する。
関連論文リスト
- A Theoretical Framework for Statistical Evaluability of Generative Models [57.9316356505791]
本稿では、生成モデルを評価するための理論的枠組みを導入し、一般的なメトリクスに対する評価結果を確立する。
テストベースのメトリクス、例えば積分確率測定(IPM)とレニイ発散(Rényi divergences)の2つのカテゴリについて検討する。
任意の有界テストクラスに対するIPMは、乗法および加法近似誤差まで有限標本から評価できることを示す。
対照的に、レニイとKLの発散は、希少事象によってその値が批判的に決定されるため、有限標本から評価できない。
論文 参考訳(メタデータ) (2026-04-07T01:53:59Z) - Fault-Tolerant Evaluation for Sample-Efficient Model Performance Estimators [13.227055178509524]
本稿では, バイアスと分散を考慮した耐障害性評価フレームワークを提案する。
我々は、$varepsilon$の適切なキャリブレーションにより、異なる分散状態の信頼性が保証されることを示す。
実世界のデータセットの実験は、我々のフレームワークが推定器の振る舞いに関する包括的で実行可能な洞察を提供することを示した。
論文 参考訳(メタデータ) (2026-02-06T22:14:46Z) - From Model Choice to Model Belief: Establishing a New Measure for LLM-Based Research [0.0]
大規模言語モデル(LLM)は、人間の振る舞いをシミュレートするためにますます使われている。
LLMの出力を単一のデータポイントとして扱うことは、LLMの確率的性質に固有の情報を過小評価する。
本稿では, LLMのトークンレベルの確率から導かれる「モデル信念」を紹介し, 定式化する。
論文 参考訳(メタデータ) (2025-12-29T03:50:40Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Ranked from Within: Ranking Large Multimodal Models Without Labels [73.96543593298426]
ソフトマックス分布から導かれる不確実性スコアは,様々なタスクにまたがるランキングモデルに対して,ロバストな基礎となることを示す。
これにより、ラベルのないデータに対するLMMのランク付けが容易になり、手動のアノテーションを必要とせずに、多様なターゲットドメインのモデルを選択するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-12-09T13:05:43Z) - Post-Selection Confidence Bounds for Prediction Performance [2.28438857884398]
機械学習では、潜在的に多くの競合モデルから有望なモデルを選択し、その一般化性能を評価することが重要な課題である。
本稿では,評価セットの予測性能に基づいて選択された複数のモデルに対して,有効な低信頼境界を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-24T13:28:43Z) - Model-based metrics: Sample-efficient estimates of predictive model
subpopulation performance [11.994417027132807]
健康状態の表示、診断、予測のために現在一般的に開発されている機械学習モデル$-$は、様々なパフォーマンス指標で評価される。
サブ集団のパフォーマンスメトリクスは、通常、そのサブグループのデータのみを使用して計算されるため、より小さなグループに対する分散推定が高くなる。
本稿では,予測モデルスコアの条件分布を記述した評価モデル$-$を用いて,モデルベース計量(MBM)の推定値を生成する。
論文 参考訳(メタデータ) (2021-04-25T19:06:34Z) - Characterizing Fairness Over the Set of Good Models Under Selective
Labels [69.64662540443162]
同様の性能を実現するモデルセットに対して,予測公正性を特徴付けるフレームワークを開発する。
到達可能なグループレベルの予測格差の範囲を計算するためのトラクタブルアルゴリズムを提供します。
選択ラベル付きデータの実証的な課題に対処するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2021-01-02T02:11:37Z) - SUMO: Unbiased Estimation of Log Marginal Probability for Latent
Variable Models [80.22609163316459]
無限級数のランダム化トランケーションに基づく潜在変数モデルに対して、ログ境界確率の非バイアス推定器とその勾配を導入する。
推定器を用いてトレーニングしたモデルは、同じ平均計算コストに対して、標準的な重要度サンプリングに基づくアプローチよりも優れたテストセット確率を与えることを示す。
論文 参考訳(メタデータ) (2020-04-01T11:49:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。