論文の概要: Efficient Benchmarking Is Just Feature Selection and Multiple Regression
- arxiv url: http://arxiv.org/abs/2605.25773v1
- Date: Mon, 25 May 2026 12:23:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.03179
- Title: Efficient Benchmarking Is Just Feature Selection and Multiple Regression
- Title(参考訳): 効率的なベンチマークは機能選択と複数の回帰に過ぎません
- Authors: Sam Bowyer, Acyr Locatelli, Kris Cao,
- Abstract要約: 既存のベンチマーク手法は、予測段階で単にカーネルリッジレグレッションを使用することで、大幅に改善することができる。
我々は,mRMR (Minimum Dundancy maximum Relevance) と呼ばれる情報理論的特徴選択アルゴリズムを用いて,予測に最適な質問サブセットを選択する。
- 参考スコア(独自算出の注目度): 7.933223290730552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient benchmarking techniques aim to lower the computational cost of evaluating LLMs by predicting full benchmark scores using only a subset of a benchmark's questions. By reframing this problem as an instance of multiple regression with feature selection, we find that existing efficient benchmarking methods can be greatly improved by simply using kernel ridge regression at the prediction stage. Additionally, using an information-theoretic feature-selection algorithm called minimum redundancy maximum relevance (mRMR), we can further improve upon these methods by selecting question subsets that will be maximally useful for prediction. Except in very data-poor settings, these approaches consistently achieve smaller prediction errors (in both MAE and RMSE), and greater ranking correlation between predicted and true scores (in both Spearman $ρ$ and Kendall $τ$) across a range of benchmarks using both binary and continuous metrics. Furthermore, mRMR subsampling is much faster than competitor methods (which often involve fitting probabilistic models or running clustering algorithms), and is more likely to select the same questions under different random seeds or training data splits. Tutorial code can be found at https://github.com/sambowyer/mrmr_eval .
- Abstract(参考訳): 効率的なベンチマーク手法は、ベンチマークの質問のサブセットだけを用いてベンチマークスコア全体を予測することにより、LCMを評価する際の計算コストを下げることを目的としている。
この問題を特徴選択を伴う多重回帰の事例として考えることで、予測段階でカーネルリッジ回帰を用いることで、既存の効率的なベンチマーク手法を大幅に改善できることが分かる。
また,mRMRと呼ばれる情報理論的特徴選択アルゴリズムを用いて,これらの手法をさらに改良する。
非常にデータ不足な設定を除いて、これらのアプローチは一貫してより小さな予測誤差(MAEとRMSEの両方)を達成し、予測スコアと真のスコア(Spearman $ρ$とKendall $τ$の両方)のランキング相関は、バイナリと連続メトリクスの両方を使用して、様々なベンチマークで達成される。
さらに、mRMRサブサンプリングは競合する手法(確率的モデルに適合したりクラスタリングアルゴリズムを実行する場合が多い)よりもはるかに高速であり、異なるランダムシードやトレーニングデータ分割の下で同じ質問を選択する傾向にある。
チュートリアルコードはhttps://github.com/sambowyer/mrmr_eval で見ることができる。
関連論文リスト
- Near Optimal Inference for the Best-Performing Algorithm [6.5268245109828005]
本稿では,サブセット選択問題に対する新しい枠組みを提案する。
我々は、現在知られている手法を大幅に改善する高信頼と有限サンプルスキームを提供する。
論文 参考訳(メタデータ) (2025-08-07T09:08:06Z) - How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。
テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。
マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文 参考訳(メタデータ) (2025-04-04T00:41:40Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Compound Batch Normalization for Long-tailed Image Classification [77.42829178064807]
本稿では,ガウス混合に基づく複合バッチ正規化法を提案する。
機能空間をより包括的にモデル化し、ヘッドクラスの優位性を減らすことができる。
提案手法は,画像分類における既存の手法よりも優れている。
論文 参考訳(メタデータ) (2022-12-02T07:31:39Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - On Learning Mixture of Linear Regressions in the Non-Realizable Setting [44.307245411703704]
線形回帰(MLR)の混合はラベルを予測せずに値のリストを予測できることを示す。
本稿では,一般的な最小化 (AM) アルゴリズムのバージョンが,実現可能なモデルが仮定されていない場合でも,データセットに最も適した線を見つけることを示す。
論文 参考訳(メタデータ) (2022-05-26T05:34:57Z) - Analyzing the Impact of Undersampling on the Benchmarking and
Configuration of Evolutionary Algorithms [3.967483941966979]
限られたデータに基づいて意思決定を行う場合、注意が必要であることを示す。
統計的レースを用いてラン数を動的に調整しても,20%以上の性能損失の例を示す。
論文 参考訳(メタデータ) (2022-04-20T09:53:59Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。