論文の概要: Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?
- arxiv url: http://arxiv.org/abs/2510.10457v1
- Date: Sun, 12 Oct 2025 05:38:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.948847
- Title: Rethinking LLM Evaluation: Can We Evaluate LLMs with 200x Less Data?
- Title(参考訳): LLMの評価を再考する: 200倍少ないデータでLCMを評価することができるか?
- Authors: Shaobo Wang, Cong Wang, Wenjie Fu, Yue Min, Mingquan Feng, Isabel Guan, Xuming Hu, Conghui He, Cunxiang Wang, Kexin Yang, Xingzhang Ren, Fei Huang, Dayiheng Liu, Linfeng Zhang,
- Abstract要約: EssenceBenchは反復遺伝的アルゴリズム(GA)を利用した粗粒度フレームワーク
提案手法は, 再構成誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以内の順位を保ち,わずか200倍少ないサンプルを用いて,95%未満のランキング保持シフトを達成している。
- 参考スコア(独自算出の注目度): 82.09573568241724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the demand for comprehensive evaluations of diverse model capabilities steadily increases, benchmark suites have correspondingly grown significantly in scale. Despite notable advances in redundancy reduction and subset-level performance prediction, a systematic framework that effectively integrates these methods to ensure both prediction accuracy and ranking consistency is still largely elusive. In this paper, we first perform a sample-level analysis of benchmark redundancy and identify several highly similar samples that can be eliminated. Besides, we frame benchmark compression as an optimization problem with the aim of score reconstruction. Building on these, we then propose EssenceBench, a coarse-to-fine framework utilizing an iterative Genetic Algorithm (GA), which takes the advantages of fitness-based subset search and attribution-based sample search. Compared to previous methods, our approach yields superior compression results with lower reconstruction error and markedly higher efficiency. In particular, on the HellaSwag benchmark (10K samples), our method preserves the ranking of all models shifting within 5% using 25x fewer samples, and achieves 95% ranking preservation shifting within 5% using only 200x fewer samples.
- Abstract(参考訳): 多様なモデル機能に対する包括的評価の需要が着実に増大するにつれて、ベンチマークスイートの規模は大幅に拡大している。
冗長性低減とサブセットレベルのパフォーマンス予測の顕著な進歩にもかかわらず、これらの手法を効果的に統合し、予測精度とランキング整合性の両方を確実にする体系的なフレームワークは、いまだ大半が解明されている。
本稿では、まず、ベンチマーク冗長性のサンプルレベル解析を行い、除去可能ないくつかの非常に類似したサンプルを同定する。
さらに,スコア再構成を目的としたベンチマーク圧縮を最適化問題として検討した。
そこで我々は,適応型部分探索と帰属型サンプル探索の利点を生かした,反復型遺伝的アルゴリズム(GA)を利用した粗粒度フレームワークであるEssenceBenchを提案する。
提案手法は, 従来の手法と比較して, 再現誤差が低く, 効率が著しく向上した, 優れた圧縮結果が得られる。
特に,HellaSwagベンチマーク(10Kサンプル)では,25倍少ないサンプルを用いて,全モデルが5%以下にシフトし,わずか200倍少ないサンプルを用いて95%未満のランキング保持シフトを達成している。
関連論文リスト
- How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。
本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文 参考訳(メタデータ) (2025-06-09T11:50:41Z) - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Nearly Optimal Sample Complexity for Learning with Label Proportions [54.67830198790247]
トレーニングセットの例をバッグにグループ化する部分情報設定であるLLP(Learning from Label Proportions)について検討する。
部分的な可観測性にもかかわらず、ゴールは個々の例のレベルで小さな後悔を達成することである。
我々は, LLPの2乗損失下でのサンプル複雑性について, 標本複雑性が本質的に最適であることを示す。
論文 参考訳(メタデータ) (2025-05-08T15:45:23Z) - Adaptive Sampled Softmax with Inverted Multi-Index: Methods, Theory and Applications [79.53938312089308]
MIDX-Samplerは、逆多重インデックスアプローチに基づく新しい適応型サンプリング戦略である。
本手法は, サンプリングバイアス, 勾配バイアス, 収束速度, 一般化誤差境界などの重要な問題に対処するため, 厳密な理論的解析によって裏付けられている。
論文 参考訳(メタデータ) (2025-01-15T04:09:21Z) - Data Efficient Evaluation of Large Language Models and Text-to-Image Models via Adaptive Sampling [3.7467864495337624]
SubLIMEはテキスト・ツー・イメージ・モデルのためのデータ効率評価フレームワークである。
我々のアプローチは、完全なデータセットと比較して統計的に整合したモデルランキングを保証する。
HEIMのリーダーボードを利用して、17の異なるベンチマークで25のテキスト・ツー・イメージモデルをカバーしています。
論文 参考訳(メタデータ) (2024-06-21T07:38:55Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Learning to Select Pivotal Samples for Meta Re-weighting [12.73177872962048]
本研究では,大規模で不完全なトレーニングセットからこのようなメタサンプルを識別する方法を学習し,その後,クリーン化し,性能を最適化するために利用する。
学習フレームワークにおける2つのクラスタリング手法,Representation-based clustering method (RBC) と Gradient-based clustering method (GBC) を提案する。
論文 参考訳(メタデータ) (2023-02-09T03:04:40Z) - Boosting Randomized Smoothing with Variance Reduced Classifiers [4.110108749051657]
ランダム化平滑化(Randomized Smoothing, RS)のベースモデルとして, アンサンブルが特に適した選択である理由を考察する。
我々は、この選択を実証的に確認し、複数の設定でアート結果の状態を取得する。
論文 参考訳(メタデータ) (2021-06-13T08:40:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。