Fugu-MT 論文翻訳(概要): Improvements & Evaluations on the MLCommons CloudMask Benchmark

論文の概要: Improvements & Evaluations on the MLCommons CloudMask Benchmark

arxiv url: http://arxiv.org/abs/2403.04553v1
Date: Thu, 7 Mar 2024 14:48:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 13:44:31.463740
Title: Improvements & Evaluations on the MLCommons CloudMask Benchmark
Title（参考訳）: MLCommons CloudMaskベンチマークの改善と評価
Authors: Varshitha Chennamsetti, Laiba Mehnaz, Dan Zhao, Banani Ghosh, Sergey V. Samsonau
Abstract要約: クラウドマスキングのベンチマークタスク、更新されたコード、このベンチマークの最良のモデルについて説明します。結果は、NYUシステムで達成された最高精度と、トレーニングと推論の両方に要する平均時間を含む。
参考スコア（独自算出の注目度）: 11.115005057843579
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we report the performance benchmarking results of deep learning models on MLCommons' Science cloud-masking benchmark using a high-performance computing cluster at New York University (NYU): NYU Greene. MLCommons is a consortium that develops and maintains several scientific benchmarks that can benefit from developments in AI. We provide a description of the cloud-masking benchmark task, updated code, and the best model for this benchmark when using our selected hyperparameter settings. Our benchmarking results include the highest accuracy achieved on the NYU system as well as the average time taken for both training and inference on the benchmark across several runs/seeds. Our code can be found on GitHub. MLCommons team has been kept informed about our progress and may use the developed code for their future work.
Abstract（参考訳）: 本稿では,ニューヨーク大学(NYU)の高性能コンピューティングクラスタを用いたMLCommonsのScienceクラウドマスキングベンチマークにおけるディープラーニングモデルの性能ベンチマーク結果について報告する。 MLCommonsは、AIの開発から恩恵を受けることができるいくつかの科学的ベンチマークを開発し、維持するコンソーシアムである。選択したハイパーパラメータ設定を使用する場合、クラウドマスキングベンチマークタスク、コード更新、このベンチマークの最良のモデルについて説明する。我々のベンチマーク結果には、NYUシステムで達成された最高精度と、複数のラン/シードでベンチマークのトレーニングと推論に要する平均時間が含まれています。私たちのコードはGitHubで参照できます。 MLCommonsチームは、私たちの進捗を知り、将来の作業に開発コードを使うかもしれない。

関連論文リスト

Information Density Principle for MLLM Benchmarks [59.88484827926759]
本稿では,MLLMの開発において,ベンチマークがどの程度の洞察を得られるかを検討する情報密度の原理を提案する。 1万以上のサンプルの包括的分析により,19個のMLLMベンチマークの情報密度を測定した。実験によると、テストで最新のベンチマークを使用すると、以前のベンチマークよりも多くの洞察が得られるが、情報密度を改善する余地はまだ残っている。
論文参考訳（メタデータ） (2025-03-13T05:58:41Z)
ManiSkill-HAB: A Benchmark for Low-Level Manipulation in Home Rearrangement Tasks [18.672482188560622]
MS-HABは、低レベルの操作と家庭内オブジェクト再構成のための総合的なベンチマークである。我々は、現実的な低レベル制御をサポートし、GPUメモリ使用率のごく一部で、事前の魔法の把握実装の3倍の速度を達成する。
論文参考訳（メタデータ） (2024-12-09T01:29:24Z)
UniBench: Visual Reasoning Requires Rethinking Vision-Language Beyond Scaling [22.885385107905222]
我々は50以上の視覚言語モデル(VLM)ベンチマークの統一実装であるUniBenchを紹介する。約60の公開ビジョン言語モデルを評価することで,UniBenchの進歩度測定に有効であることを示す。また、59モデルにまたがる50以上のベンチマークと比較の完全なセットと、1つのGPUで5分で実行されるベンチマークの蒸留セットを備えた、簡単に実行できるUniBenchコードベースもリリースしました。
論文参考訳（メタデータ） (2024-08-09T01:41:05Z)
Generating Unseen Code Tests In Infinitum [1.0674604700001968]
本稿では,プログラミングタスクやプログラミング言語にまたがって一般化するベンチマークのバリエーションを作成する手法を提案する。我々は、Pythonでテキストからコードを生成するタスクに対して、textitauto-regressionと呼ばれる1つのベンチマークを実装した。
論文参考訳（メタデータ） (2024-07-29T08:11:20Z)
LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化(英: Uncertainty Quantification、UQ)は、機械学習(ML)アプリケーションにおいて重要なコンポーネントである。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、9つのタスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も有望なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
MixEval: Deriving Wisdom of the Crowd from LLM Benchmark Mixtures [57.886592207948844]
市販のベンチマークを戦略的に混合することにより,効率的な金標準評価を実現するための新しいパラダイムであるMixEvalを提案する。提案手法は,(1)包括的でよく分散された実世界のユーザクエリと(2)Webから抽出したクエリと,既存のベンチマークからの類似したクエリとをマッチングすることによって,効率よく,かつ,かなり改善された基盤トラスベースのベンチマークを橋渡しする。
論文参考訳（メタデータ） (2024-06-03T05:47:05Z)
Top Leaderboard Ranking = Top Coding Proficiency, Always? EvoEval: Evolving Coding Benchmarks via LLM [13.324171480106715]
EvoEvalは、既存のベンチマークを異なるターゲットドメインに進化させたプログラム合成ベンチマークスイートである。我々の研究では、HumanEvalのような標準ベンチマークで得られたハイパフォーマンスと比較して、パフォーマンスが大幅に低下していることが示されている。本稿では,リワードや微妙な変化に遭遇した場合の命令追従モデルの脆さなど,様々な知見を紹介する。
論文参考訳（メタデータ） (2024-03-28T03:10:39Z)
MLCommons Cloud Masking Benchmark with Early Stopping [0.837165016574332]
我々は,MLCommons Science Working Groupのクラウドマスキングベンチマークで実施した作業について報告する。ベンチマークは、ニューヨーク大学とバージニア大学のHigh Performance Computing Clustersで実施されている。クラウドマスキングベンチマークについての説明や,実施したベンチマーク実験に関するMLCommonsへの提出の概要について紹介する。
論文参考訳（メタデータ） (2023-12-11T19:06:06Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Forces are not Enough: Benchmark and Critical Evaluation for Machine Learning Force Fields with Molecular Simulations [5.138982355658199]
分子動力学(MD)シミュレーション技術は様々な自然科学応用に広く用いられている。我々は、最先端(SOTA)ML FFモデルの集合をベンチマークし、特に、一般的にベンチマークされる力の精度が、関連するシミュレーション指標とうまく一致していないことを示す。
論文参考訳（メタデータ） (2022-10-13T17:59:03Z)
PDEBENCH: An Extensive Benchmark for Scientific Machine Learning [20.036987098901644]
部分微分方程式(PDE)に基づく時間依存シミュレーションタスクのベンチマークスイートであるPDEBenchを紹介する。 PDEBenchは、コードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。
論文参考訳（メタデータ） (2022-10-13T17:03:36Z)
CLUES: Few-Shot Learning Evaluation in Natural Language Understanding [81.63968985419982]
我々は,NLUモデルの少数ショット学習能力を評価するためのベンチマークであるCLUESを紹介する。近年のモデルでは,大量のラベル付きデータにアクセスすると人的パフォーマンスが向上するが,ほとんどのタスクにおいて数ショット設定では,パフォーマンスに大きなギャップが生じることが実証された。
論文参考訳（メタデータ） (2021-11-04T00:43:15Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。