論文の概要: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress
- arxiv url: http://arxiv.org/abs/2402.19472v1
- Date: Thu, 29 Feb 2024 18:58:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:15:48.164296
- Title: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid
Progress
- Title(参考訳): Lifelong Benchmarks: 迅速な進歩の時代における効率的なモデル評価
- Authors: Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel
Bibi, Samuel Albanie
- Abstract要約: 繰り返しテストすることで、アルゴリズムが過剰に露出するベンチマークの慣用性によって、オーバーフィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模ベンチマークを継続的に展開することで、この課題を緩和しようとしています。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
- 参考スコア(独自算出の注目度): 42.61046639944395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Standardized benchmarks drive progress in machine learning. However, with
repeated testing, the risk of overfitting grows as algorithms over-exploit
benchmark idiosyncrasies. In our work, we seek to mitigate this challenge by
compiling ever-expanding large-scale benchmarks called Lifelong Benchmarks. As
exemplars of our approach, we create Lifelong-CIFAR10 and Lifelong-ImageNet,
containing (for now) 1.69M and 1.98M test samples, respectively. While reducing
overfitting, lifelong benchmarks introduce a key challenge: the high cost of
evaluating a growing number of models across an ever-expanding sample set. To
address this challenge, we also introduce an efficient evaluation framework:
Sort \& Search (S&S), which reuses previously evaluated models by leveraging
dynamic programming algorithms to selectively rank and sub-select test samples,
enabling cost-effective lifelong benchmarking. Extensive empirical evaluations
across 31,000 models demonstrate that S&S achieves highly-efficient approximate
accuracy measurement, reducing compute cost from 180 GPU days to 5 GPU hours
(1000x reduction) on a single A100 GPU, with low approximation error. As such,
lifelong benchmarks offer a robust, practical solution to the "benchmark
exhaustion" problem.
- Abstract(参考訳): 標準化されたベンチマークは、機械学習の進歩を促進する。
しかし、繰り返しテストを行うと、アルゴリズムのオーバープロイトベンチマークのイディオ同期によって過剰フィッティングのリスクが増大する。
私たちの研究では、Lifelong Benchmarksと呼ばれる大規模なベンチマークをコンパイルすることで、この課題を緩和しようとしています。
このアプローチの例として、Lifelong-CIFAR10とLifelong-ImageNetを作成し、それぞれ1.69Mと1.98Mのテストサンプルを含む。
オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
この課題に対処するために、動的なプログラミングアルゴリズムを利用してテストサンプルのランク付けとサブセレクトを行い、コスト効率の良い生涯ベンチマークを可能にする、s&s(sort \& search)という効率的な評価フレームワークも導入する。
31,000モデルにわたる大規模な実験的な評価により、S&Sは高精度な精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間(1000倍の削減)に削減し、近似誤差を低くすることができる。
そのため、生涯ベンチマークは「ベンチマーク枯渇」問題に対する堅牢で実用的な解決策を提供する。
関連論文リスト
- It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。
本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。
その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文 参考訳(メタデータ) (2024-06-12T15:34:28Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。
HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。
本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-08-22T17:59:30Z) - Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit
for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。
数ショット設定における性能推定器の精度を測定した。
評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文 参考訳(メタデータ) (2023-07-06T02:31:38Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z) - Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。
この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。
モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文 参考訳(メタデータ) (2022-11-27T19:50:37Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - Continuous Optimization Benchmarks by Simulation [0.0]
最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。
以前の評価から得られたデータは、ベンチマークに使用される代理モデルのトレーニングに使用することができる。
本研究では,スペクトルシミュレーションにより連続最適化問題のシミュレーションが可能であることを示す。
論文 参考訳(メタデータ) (2020-08-14T08:50:57Z) - The Devil is in Classification: A Simple Framework for Long-tail Object
Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。
主な原因は、オブジェクト提案の不正確な分類である。
そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-23T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。