論文の概要: MLCommons Cloud Masking Benchmark with Early Stopping
- arxiv url: http://arxiv.org/abs/2401.08636v1
- Date: Mon, 11 Dec 2023 19:06:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 09:51:54.530084
- Title: MLCommons Cloud Masking Benchmark with Early Stopping
- Title(参考訳): mlcommonsのクラウドマスクベンチマークが早期停止
- Authors: Varshitha Chennamsetti and Gregor von Laszewski and Ruochen Gu and
Laiba Mehnaz and Juri Papay and Samuel Jackson and Jeyan Thiyagalingam and
Sergey V. Samsonau and Geoffrey C. Fox
- Abstract要約: 我々は,MLCommons Science Working Groupのクラウドマスキングベンチマークで実施した作業について報告する。
ベンチマークは、ニューヨーク大学とバージニア大学のHigh Performance Computing Clustersで実施されている。
クラウドマスキングベンチマークについての説明や,実施したベンチマーク実験に関するMLCommonsへの提出の概要について紹介する。
- 参考スコア(独自算出の注目度): 0.837165016574332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we report on work performed for the MLCommons Science Working
Group on the cloud masking benchmark. MLCommons is a consortium that develops
and maintains several scientific benchmarks that aim to benefit developments in
AI. The benchmarks are conducted on the High Performance Computing (HPC)
Clusters of New York University and University of Virginia, as well as a
commodity desktop. We provide a description of the cloud masking benchmark, as
well as a summary of our submission to MLCommons on the benchmark experiment we
conducted. It includes a modification to the reference implementation of the
cloud masking benchmark enabling early stopping. This benchmark is executed on
the NYU HPC through a custom batch script that runs the various experiments
through the batch queuing system while allowing for variation on the number of
epochs trained. Our submission includes the modified code, a custom batch
script to modify epochs, documentation, and the benchmark results. We report
the highest accuracy (scientific metric) and the average time taken
(performance metric) for training and inference that was achieved on NYU HPC
Greene. We also provide a comparison of the compute capabilities between
different systems by running the benchmark for one epoch. Our submission can be
found in a Globus repository that is accessible to MLCommons Science Working
Group.
- Abstract(参考訳): 本稿では,MLCommons Science Working Groupが行ったクラウドマスキングベンチマークについて報告する。
MLCommonsは、AIの開発を支援するために、いくつかの科学的ベンチマークを開発し、維持するコンソーシアムである。
ベンチマークは、ニューヨーク大学とバージニア大学のハイパフォーマンスコンピューティング(hpc)クラスタとコモディティデスクトップで実施されている。
クラウドマスキングベンチマークについての説明や,実施したベンチマーク実験に関するMLCommonsへの提出の概要について紹介する。
早期停止を可能にするcloud masking benchmarkのリファレンス実装の変更が含まれている。
このベンチマークはNYU HPC上で、バッチキューシステムを通じてさまざまな実験を実行するカスタムバッチスクリプトを通じて実行され、トレーニングされたエポック数の変動を許容する。
提案には、修正コード、エポックを修正するカスタムバッチスクリプト、ドキュメント、ベンチマーク結果が含まれています。
我々は,NYU HPC Greeneで達成したトレーニングおよび推論において,最高精度(科学的指標)と平均時間(性能指標)を報告する。
また,ベンチマークを1時間毎に実行することで,異なるシステム間の計算能力の比較を行う。
我々の提出は、MLCommons Science Working Groupにアクセス可能なGlobusリポジトリで確認できます。
関連論文リスト
- Improve Machine Learning carbon footprint using Nvidia GPU and Mixed Precision training for classification models -- Part I [0.0]
この論文は、分類MLモデルをトレーニングしながら、デフォルトの浮動小数点(32bit)とNvidiaの混合精度(16bitと32bit)を用いた消費電力を比較する。
論文 参考訳(メタデータ) (2024-09-12T08:59:53Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Improvements & Evaluations on the MLCommons CloudMask Benchmark [11.115005057843579]
クラウドマスキングのベンチマークタスク、更新されたコード、このベンチマークの最良のモデルについて説明します。
結果は、NYUシステムで達成された最高精度と、トレーニングと推論の両方に要する平均時間を含む。
論文 参考訳(メタデータ) (2024-03-07T14:48:48Z) - How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Forces are not Enough: Benchmark and Critical Evaluation for Machine
Learning Force Fields with Molecular Simulations [5.138982355658199]
分子動力学(MD)シミュレーション技術は様々な自然科学応用に広く用いられている。
我々は、最先端(SOTA)ML FFモデルの集合をベンチマークし、特に、一般的にベンチマークされる力の精度が、関連するシミュレーション指標とうまく一致していないことを示す。
論文 参考訳(メタデータ) (2022-10-13T17:59:03Z) - PDEBENCH: An Extensive Benchmark for Scientific Machine Learning [20.036987098901644]
部分微分方程式(PDE)に基づく時間依存シミュレーションタスクのベンチマークスイートであるPDEBenchを紹介する。
PDEBenchは、コードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。
論文 参考訳(メタデータ) (2022-10-13T17:03:36Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。