Fugu-MT 論文翻訳(概要): Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

論文の概要: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress

arxiv url: http://arxiv.org/abs/2402.19472v1
Date: Thu, 29 Feb 2024 18:58:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:15:48.164296
Title: Lifelong Benchmarks: Efficient Model Evaluation in an Era of Rapid Progress
Title（参考訳）: Lifelong Benchmarks: 迅速な進歩の時代における効率的なモデル評価
Authors: Ameya Prabhu, Vishaal Udandarao, Philip Torr, Matthias Bethge, Adel Bibi, Samuel Albanie
Abstract要約: 繰り返しテストすることで、アルゴリズムが過剰に露出するベンチマークの慣用性によって、オーバーフィッティングのリスクが増大する。私たちの研究では、Lifelong Benchmarksと呼ばれる大規模ベンチマークを継続的に展開することで、この課題を緩和しようとしています。オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。
参考スコア（独自算出の注目度）: 42.61046639944395
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Standardized benchmarks drive progress in machine learning. However, with repeated testing, the risk of overfitting grows as algorithms over-exploit benchmark idiosyncrasies. In our work, we seek to mitigate this challenge by compiling ever-expanding large-scale benchmarks called Lifelong Benchmarks. As exemplars of our approach, we create Lifelong-CIFAR10 and Lifelong-ImageNet, containing (for now) 1.69M and 1.98M test samples, respectively. While reducing overfitting, lifelong benchmarks introduce a key challenge: the high cost of evaluating a growing number of models across an ever-expanding sample set. To address this challenge, we also introduce an efficient evaluation framework: Sort \& Search (S&S), which reuses previously evaluated models by leveraging dynamic programming algorithms to selectively rank and sub-select test samples, enabling cost-effective lifelong benchmarking. Extensive empirical evaluations across 31,000 models demonstrate that S&S achieves highly-efficient approximate accuracy measurement, reducing compute cost from 180 GPU days to 5 GPU hours (1000x reduction) on a single A100 GPU, with low approximation error. As such, lifelong benchmarks offer a robust, practical solution to the "benchmark exhaustion" problem.
Abstract（参考訳）: 標準化されたベンチマークは、機械学習の進歩を促進する。しかし、繰り返しテストを行うと、アルゴリズムのオーバープロイトベンチマークのイディオ同期によって過剰フィッティングのリスクが増大する。私たちの研究では、Lifelong Benchmarksと呼ばれる大規模なベンチマークをコンパイルすることで、この課題を緩和しようとしています。このアプローチの例として、Lifelong-CIFAR10とLifelong-ImageNetを作成し、それぞれ1.69Mと1.98Mのテストサンプルを含む。オーバーフィッティングを減らす一方で、寿命の長いベンチマークでは重要な課題が紹介されている。この課題に対処するために、動的なプログラミングアルゴリズムを利用してテストサンプルのランク付けとサブセレクトを行い、コスト効率の良い生涯ベンチマークを可能にする、s&s(sort \& search)という効率的な評価フレームワークも導入する。 31,000モデルにわたる大規模な実験的な評価により、S&Sは高精度な精度測定を実現し、計算コストを1つのA100 GPU上で180GPU日から5GPU時間(1000倍の削減)に削減し、近似誤差を低くすることができる。そのため、生涯ベンチマークは「ベンチマーク枯渇」問題に対する堅牢で実用的な解決策を提供する。

関連論文リスト

Predictive Analytics for Collaborators Answers, Code Quality, and Dropout on Stack Overflow [5.4414562674321765]
予測モデルの開発にStack Overflowを使用した以前の研究では、しばしば3-5モデルの限られたベンチマークや任意の選択方法が採用されていた。本研究は,ユーザが回答する可能性のある質問数,コード品質違反,ドロップアウト状況など,3つのタスクにまたがる21のアルゴリズムを評価した。
論文参考訳（メタデータ） (2025-06-23T06:23:12Z)
$\ exttt{SPECS}$: Faster Test-Time Scaling through Speculative Drafts [55.231201692232894]
$textttSPECS$は、投機的デコードにインスパイアされた遅延対応のテスト時間スケーリングメソッドである。我々の結果は、$textttSPECS$matchはビームサーチの精度を上回り、最大$sim$19.1%のレイテンシを削減していることを示している。
論文参考訳（メタデータ） (2025-06-15T05:50:05Z)
How Benchmark Prediction from Fewer Data Misses the Mark [18.693874781163657]
ベンチマーク予測は、評価ポイントの小さなサブセットを選択し、そのサブセットからベンチマーク全体のパフォーマンスを予測することを目的としている。本論文では,19種類のベンチマークにおいて,11種類のベンチマーク予測手法の長所と短所を体系的に評価する。
論文参考訳（メタデータ） (2025-06-09T11:50:41Z)
Satori-SWE: Evolutionary Test-Time Scaling for Sample-Efficient Software Engineering [51.7496756448709]
言語モデル(LM)は、コーディングベンチマークではうまく機能するが、現実のソフトウェア工学のタスクでは苦労する。既存のアプローチは、高品質なデータによる教師付き微調整に依存している。本研究では, 生成を進化過程として扱うサンプル効率の高い手法であるテスト時間スケーリング(EvoScale)を提案する。
論文参考訳（メタデータ） (2025-05-29T16:15:36Z)
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文参考訳（メタデータ） (2025-04-14T08:43:00Z)
Sample, Don't Search: Rethinking Test-Time Alignment for Language Models [55.2480439325792]
新しいテストタイムアライメントアプローチであるQAlignを紹介します。テスト時間計算をスケールする際、QAlignは各プロンプトの最適配向分布からのサンプリングに収束する。マルコフ連鎖モンテカルロのテキスト生成における最近の進歩を取り入れることで、基礎となるモデルを変更したり、ロジットアクセスを必要とせずに、より良い整合出力を可能にする。
論文参考訳（メタデータ） (2025-04-04T00:41:40Z)
Reliable and Efficient Amortized Model-based Evaluation [57.6469531082784]
幅広いベンチマークの平均スコアは、実際に言語モデルを使用することをガイドするシグナルを提供する。コストを下げるための一般的な試みは、ベンチマークのサブセットの平均スコアを計算することである。このアプローチは、平均スコアがベンチマークサブセットの質問の難しさと合わさったため、信頼性の低いLM性能をしばしば引き起こす。我々は、その内容から質問難度を予測するモデルを訓練し、信頼性のある測定をコストのごく一部で行えるようにした。
論文参考訳（メタデータ） (2025-03-17T16:15:02Z)
Sampling-Efficient Test-Time Scaling: Self-Estimating the Best-of-N Sampling in Early Decoding [64.2888389315149]
テスト時のスケーリングは、デコード時に余分な計算を追加することで、大きな言語モデルのパフォーマンスを改善する。ベストオブNサンプリング(Best-of-N sample)は一般的なスケーリング手法であり、より良いソリューションを見つけるために検索スペースを広げる。本稿では,全サンプリングの完全生成を回避する新しい復号法であるセルフトランケーションBest-of-N(ST-BoN)を提案する。
論文参考訳（メタデータ） (2025-03-03T11:21:01Z)
Bag of Tricks for Inference-time Computation of LLM Reasoning [10.366475014241407]
複雑度の異なる推論タスクに対して,様々な推論時間計算戦略を検証・ベンチマークする。我々のアブレーション研究は、これまで見過ごされていた戦略が性能を大幅に向上させることができることを示している。我々は,8つの推論タスクにまたがる6つの代表的手法を体系的に評価することにより,推論時間計算の標準ベンチマークを確立する。
論文参考訳（メタデータ） (2025-02-11T02:31:11Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文参考訳（メタデータ） (2025-01-24T09:12:52Z)
It's all about PR -- Smart Benchmarking AI Accelerators using Performance Representatives [40.197673152937256]
統計性能モデルのトレーニングは、しばしば大量のデータを必要とするため、かなりの時間的投資となり、ハードウェアの可用性が制限された場合に困難になる。本稿では,精度を保ちながらトレーニングサンプル数を著しく削減する性能モデリング手法を提案する。その結果,単層推定では0.02%,トレーニングサンプル10000点未満では0.68%という平均絶対誤差(MAPE)が得られた。
論文参考訳（メタデータ） (2024-06-12T15:34:28Z)
How to Prune Your Language Model: Recovering Accuracy on the "Sparsity May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文参考訳（メタデータ） (2023-12-21T03:11:30Z)
Efficient Benchmarking of Language Models [22.696230279151166]
本稿では、信頼性を損なうことなく、LM評価のコストをインテリジェントに削減する、効率的なベンチマーク問題を提案する。 HELMベンチマークをテストケースとして、異なるベンチマーク設計選択が計算-信頼性トレードオフにどのように影響するかを検討する。本稿では,HELMベンチマークに適用した場合,ベンチマーク信頼性の低下を最小限に抑えながら,大幅なコスト削減を実現する評価アルゴリズムを提案する。
論文参考訳（メタデータ） (2023-08-22T17:59:30Z)
Evaluating the Evaluators: Are Current Few-Shot Learning Benchmarks Fit for Purpose? [11.451691772914055]
本稿では,タスクレベル評価に関する最初の研究について述べる。数ショット設定における性能推定器の精度を測定した。評価者の失敗の理由を, 多くの場合, 頑健であると考えられる理由について検討する。
論文参考訳（メタデータ） (2023-07-06T02:31:38Z)
How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文参考訳（メタデータ） (2023-05-19T17:33:38Z)
Post-Processing Temporal Action Detection [134.26292288193298]
時間的行動検出(TAD)法は、通常、入力された可変長のビデオを固定長のスニペット表現シーケンスに変換する際に、前処理のステップを踏む。この前処理ステップは、ビデオを時間的にダウンサンプリングし、推論の解像度を低減し、元の時間分解における検出性能を阻害する。モデルの再設計や再学習を伴わない新しいモデル非依存のポストプロセッシング手法を提案する。
論文参考訳（メタデータ） (2022-11-27T19:50:37Z)
Towards Automated Imbalanced Learning with Deep Hierarchical Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文参考訳（メタデータ） (2022-08-26T04:28:01Z)
How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文参考訳（メタデータ） (2021-12-02T15:40:52Z)
Continuous Optimization Benchmarks by Simulation [0.0]
最適化アルゴリズムのテスト、比較、チューニング、理解にはベンチマーク実験が必要である。以前の評価から得られたデータは、ベンチマークに使用される代理モデルのトレーニングに使用することができる。本研究では,スペクトルシミュレーションにより連続最適化問題のシミュレーションが可能であることを示す。
論文参考訳（メタデータ） (2020-08-14T08:50:57Z)
The Devil is in Classification: A Simple Framework for Long-tail Object Detection and Instance Segmentation [93.17367076148348]
本稿では,最新のロングテールLVISデータセットを用いて,最先端の2段階のインスタンスセグメンテーションモデルMask R-CNNの性能低下について検討する。主な原因は、オブジェクト提案の不正確な分類である。そこで本研究では,2段階のクラスバランスサンプリング手法により,分類ヘッドバイアスをより効果的に緩和する,簡単な校正フレームワークを提案する。
論文参考訳（メタデータ） (2020-07-23T12:49:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。