論文の概要: MLHarness: A Scalable Benchmarking System for MLCommons
- arxiv url: http://arxiv.org/abs/2111.05231v1
- Date: Tue, 9 Nov 2021 16:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 17:48:36.127133
- Title: MLHarness: A Scalable Benchmarking System for MLCommons
- Title(参考訳): MLHarness:MLCommons用のスケーラブルなベンチマークシステム
- Authors: Yen-Hsiang Chang, Jianhao Pu, Wen-mei Hwu, Jinjun Xiong
- Abstract要約: MLCommons推論のためのスケーラブルなベンチマークハーネスシステムを提案する。
MLCommons Inferenceによって定義された標準ベンチマークプロセスをコーデレートする。
モデル開発者がモデルとデータセットをMLCommons Inferenceにコントリビュートするための、簡単で宣言的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 16.490366217665205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the society's growing adoption of machine learning (ML) and deep
learning (DL) for various intelligent solutions, it becomes increasingly
imperative to standardize a common set of measures for ML/DL models with large
scale open datasets under common development practices and resources so that
people can benchmark and compare models quality and performance on a common
ground. MLCommons has emerged recently as a driving force from both industry
and academia to orchestrate such an effort. Despite its wide adoption as
standardized benchmarks, MLCommons Inference has only included a limited number
of ML/DL models (in fact seven models in total). This significantly limits the
generality of MLCommons Inference's benchmarking results because there are many
more novel ML/DL models from the research community, solving a wide range of
problems with different inputs and outputs modalities. To address such a
limitation, we propose MLHarness, a scalable benchmarking harness system for
MLCommons Inference with three distinctive features: (1) it codifies the
standard benchmark process as defined by MLCommons Inference including the
models, datasets, DL frameworks, and software and hardware systems; (2) it
provides an easy and declarative approach for model developers to contribute
their models and datasets to MLCommons Inference; and (3) it includes the
support of a wide range of models with varying inputs/outputs modalities so
that we can scalably benchmark these models across different datasets,
frameworks, and hardware systems. This harness system is developed on top of
the MLModelScope system, and will be open sourced to the community. Our
experimental results demonstrate the superior flexibility and scalability of
this harness system for MLCommons Inference benchmarking.
- Abstract(参考訳): 様々なインテリジェントなソリューションに機械学習(ml)とディープラーニング(dl)が採用されるにつれて、ml/dlモデルの一般的な尺度セットと大規模なオープンデータセットを共通開発プラクティスとリソースの下で標準化することがますます重要になってきており、人々が共通の基盤でモデルの質とパフォーマンスをベンチマークし比較できるようになっている。
MLCommonsは最近、業界と学界の両方からこのような取り組みを組織化するための推進力として登場した。
標準化されたベンチマークとして広く採用されているが、MLCommons InferenceにはML/DLモデルが限られている(実際には合計7モデル)。
これは、研究コミュニティから多くの新しいml/dlモデルがあり、様々な入力と出力のモダリティで幅広い問題を解決するため、mlcommons推論のベンチマーク結果の汎用性を著しく制限している。
To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems.
このハーネスシステムはMLModelScopeシステム上で開発されており、コミュニティにオープンソース化される予定である。
実験結果は,mlcommons推論ベンチマークにおいて,このハーネスシステムの優れた柔軟性とスケーラビリティを示す。
関連論文リスト
- Model Composition for Multimodal Large Language Models [73.70317850267149]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - Knowledge Fusion of Large Language Models [73.28202188100646]
本稿では,大規模言語モデル(LLM)における知識融合の概念を紹介する。
我々は、それらの集合的知識と独特な強みを外部化し、それによってターゲットモデルの能力が、どのソースLLMよりも高められるようにします。
この結果から,LLMの融合により,推論やコモンセンス,コード生成など,対象モデルの性能が向上することが確認された。
論文 参考訳(メタデータ) (2024-01-19T05:02:46Z) - ML-On-Rails: Safeguarding Machine Learning Models in Software Systems A
Case Study [4.087995998278127]
機械学習モデルを保護するためのプロトコルであるML-On-Railsを紹介する。
ML-On-Railsは、さまざまなMLタスクのための明確に定義されたエンドポイントインターフェースを確立し、MLプロバイダとMLコンシューマ間のコミュニケーションを明確にする。
実世界のMoveReminderアプリケーションのケーススタディを通じてプロトコルを評価する。
論文 参考訳(メタデータ) (2024-01-12T11:27:15Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language
Models [75.85429963948769]
最初の総合的MLLM評価ベンチマークMMEを示す。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
総計30個のMLLMをMMEで総合的に評価した。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - Machine learning enabling high-throughput and remote operations at
large-scale user facilities [0.0]
機械学習(ML)手法は、大規模なデータセットをリアルタイムで処理し、解釈するために定期的に開発されている。
我々は、National Synchrotron Light Source II (NSLS-II)において、複数のビームラインでのオンザフライ解析のための様々なアーチティパルMLモデルを実証した。
論文 参考訳(メタデータ) (2022-01-09T17:43:03Z) - Panoramic Learning with A Standardized Machine Learning Formalism [116.34627789412102]
本稿では,多様なMLアルゴリズムの統一的な理解を提供する学習目的の標準化された方程式を提案する。
また、新しいMLソリューションのメカニック設計のガイダンスも提供し、すべての経験を持つパノラマ学習に向けた有望な手段として機能する。
論文 参考訳(メタデータ) (2021-08-17T17:44:38Z) - MLPerf Tiny Benchmark [1.1178096184080788]
我々は、超低消費電力の小さな機械学習システムのための業界標準ベンチマークスイートであるTinyerf Tinyを紹介する。
Tinyerf Tinyは、機械学習推論の正確性、レイテンシ、エネルギーを測定し、システム間のトレードオフを適切に評価する。
論文 参考訳(メタデータ) (2021-06-14T17:05:17Z) - Counterfactual Explanations for Machine Learning on Multivariate Time
Series Data [0.9274371635733836]
本稿では、教師付き機械学習フレームワークに対して、対実的説明を提供するための新しい説明可能性手法を提案する。
提案手法は,信頼性やロバスト性など,いくつかの異なるMLフレームワークやデータセット上での最先端の説明可能性手法よりも優れている。
論文 参考訳(メタデータ) (2020-08-25T02:04:59Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。