論文の概要: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress
- arxiv url: http://arxiv.org/abs/2402.19472v1
- Date: Thu, 29 Feb 2024 18:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:15:48.164296
- Title: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress
- Title(参考訳): Lifelong Benchmarks: 迅速な進歩の時代における効率的なモデル評価
- Authors: Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel
Bibi, Samuel Albanie
- Abstract要約: 繰り返しテストすることで、アルゴリズムが過剰に露出するベンチマークの慣用性によって、オーバーフィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模ベンチマークを継続的に展開することで、この課題を緩和しようとしています。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
- 参考スコア(独自算出の注目度): 42.61046639944395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standardized benchmarks drive progress in machine learning. However, with
repeated testing, the risk of overfitting grows as algorithms over-exploit
benchmark idiosyncrasies. In our work, we seek to mitigate this challenge by
compiling ever-expanding large-scale benchmarks called Lifelong Benchmarks. As
exemplars of our approach, we create Lifelong-CIFAR10 and Lifelong-ImageNet,
containing (for now) 1.69M and 1.98M test samples, respectively. While reducing
overfitting, lifelong benchmarks introduce a key challenge: the high cost of
evaluating a growing number of models across an ever-expanding sample set. To
address this challenge, we also introduce an efficient evaluation framework:
Sort \& Search (S&S), which reuses previously evaluated models by leveraging
dynamic programming algorithms to selectively rank and sub-select test samples,
enabling cost-effective lifelong benchmarking. Extensive empirical evaluations
across 31,000 models demonstrate that S&S achieves highly-efficient approximate
accuracy measurement, reducing compute cost from 180 GPU days to 5 GPU hours
(1000x reduction) on a single A100 GPU, with low approximation error. As such,
lifelong benchmarks offer a robust, practical solution to the "benchmark
exhaustion" problem.
- Abstract(参考訳): 標準化されたベンチマークは、機械学習の進歩を促進する。
しかし、繰り返しテストを行うと、アルゴリズムのオーバープロイトベンチマークのイディオ同期によって過剰フィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模なベンチマークをコンパイルすることで、この課題を緩和しようとしています。
このアプローチの例として、Lifelong-CIFAR10とLifelong-ImageNetを作成し、それぞれ1.69Mと1.98Mのテストサンプルを含む。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
この課題に対処するために、動的なプログラミングアルゴリズムを利用してテストサンプルのランク付けとサブセレクトを行い、コスト効率の良い生涯ベンチマークを可能にする、s&s(sort \& search)という効率的な評価フレームワークも導入する。
31,000モデルにわたる大規模な実験的な評価により、S&Sは高精度な精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間(1000倍の削減)に削減し、近似誤差を低くすることができる。
そのため、生涯ベンチマークは「ベンチマーク枯渇」問題に対する堅牢で実用的な解決策を提供する。
関連論文リスト
- HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスの予測に適していないことが分かりました。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクがフルコンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline [47.19203597218352]
BenchBuilderは、大規模なクラウドソースデータセットから高品質でオープンなプロンプトをキュレートする自動パイプラインである。
BenchBuilderがキュレートした500の挑戦的なプロンプトからなるベンチマークであるArena-Hard-Autoをリリースしました。
我々の研究は、広範囲なデータから自動ベンチマークをスケーラブルにキュレーションするための新しいフレームワークを定めています。
論文 参考訳(メタデータ) (2024-06-17T17:26:10Z) - It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。
提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文 参考訳(メタデータ) (2024-06-03T05:47:05Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow [22.540665278228975]
NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
論文 参考訳(メタデータ) (2023-02-09T04:43:10Z) - Do Question Answering Modeling Improvements Hold Across Benchmarks? [84.48867898593052]
20種類の多種多様なモデリング手法を用いて32のQAベンチマークの一致を計測する。
何年にもわたってコミュニティは少数のベンチマークに力を入れてきたが、研究対象のモデリングの改善は広く続いている。
論文 参考訳(メタデータ) (2021-02-01T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。