論文の概要: MLHarness: A Scalable Benchmarking System for MLCommons
- arxiv url: http://arxiv.org/abs/2111.05231v1
- Date: Tue, 9 Nov 2021 16:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 17:48:36.127133
- Title: MLHarness: A Scalable Benchmarking System for MLCommons
- Title(参考訳): MLHarness:MLCommons用のスケーラブルなベンチマークシステム
- Authors: Yen-Hsiang Chang, Jianhao Pu, Wen-mei Hwu, Jinjun Xiong
- Abstract要約: MLCommons推論のためのスケーラブルなベンチマークハーネスシステムを提案する。
MLCommons Inferenceによって定義された標準ベンチマークプロセスをコーデレートする。
モデル開発者がモデルとデータセットをMLCommons Inferenceにコントリビュートするための、簡単で宣言的なアプローチを提供する。
- 参考スコア(独自算出の注目度): 16.490366217665205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the society's growing adoption of machine learning (ML) and deep
learning (DL) for various intelligent solutions, it becomes increasingly
imperative to standardize a common set of measures for ML/DL models with large
scale open datasets under common development practices and resources so that
people can benchmark and compare models quality and performance on a common
ground. MLCommons has emerged recently as a driving force from both industry
and academia to orchestrate such an effort. Despite its wide adoption as
standardized benchmarks, MLCommons Inference has only included a limited number
of ML/DL models (in fact seven models in total). This significantly limits the
generality of MLCommons Inference's benchmarking results because there are many
more novel ML/DL models from the research community, solving a wide range of
problems with different inputs and outputs modalities. To address such a
limitation, we propose MLHarness, a scalable benchmarking harness system for
MLCommons Inference with three distinctive features: (1) it codifies the
standard benchmark process as defined by MLCommons Inference including the
models, datasets, DL frameworks, and software and hardware systems; (2) it
provides an easy and declarative approach for model developers to contribute
their models and datasets to MLCommons Inference; and (3) it includes the
support of a wide range of models with varying inputs/outputs modalities so
that we can scalably benchmark these models across different datasets,
frameworks, and hardware systems. This harness system is developed on top of
the MLModelScope system, and will be open sourced to the community. Our
experimental results demonstrate the superior flexibility and scalability of
this harness system for MLCommons Inference benchmarking.
- Abstract(参考訳): 様々なインテリジェントなソリューションに機械学習(ml)とディープラーニング(dl)が採用されるにつれて、ml/dlモデルの一般的な尺度セットと大規模なオープンデータセットを共通開発プラクティスとリソースの下で標準化することがますます重要になってきており、人々が共通の基盤でモデルの質とパフォーマンスをベンチマークし比較できるようになっている。
MLCommonsは最近、業界と学界の両方からこのような取り組みを組織化するための推進力として登場した。
標準化されたベンチマークとして広く採用されているが、MLCommons InferenceにはML/DLモデルが限られている(実際には合計7モデル)。
これは、研究コミュニティから多くの新しいml/dlモデルがあり、様々な入力と出力のモダリティで幅広い問題を解決するため、mlcommons推論のベンチマーク結果の汎用性を著しく制限している。
To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems.
このハーネスシステムはMLModelScopeシステム上で開発されており、コミュニティにオープンソース化される予定である。
実験結果は,mlcommons推論ベンチマークにおいて,このハーネスシステムの優れた柔軟性とスケーラビリティを示す。
関連論文リスト
- Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文 参考訳(メタデータ) (2024-08-19T11:09:12Z) - xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。
このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。
私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文 参考訳(メタデータ) (2024-08-16T17:57:01Z) - A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。
伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。
我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文 参考訳(メタデータ) (2024-08-12T15:28:40Z) - Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。
メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。
この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文 参考訳(メタデータ) (2024-06-15T12:02:14Z) - Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。
具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。
マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文 参考訳(メタデータ) (2024-05-18T12:16:01Z) - Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。
我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-20T06:38:10Z) - ML-On-Rails: Safeguarding Machine Learning Models in Software Systems A
Case Study [4.087995998278127]
機械学習モデルを保護するためのプロトコルであるML-On-Railsを紹介する。
ML-On-Railsは、さまざまなMLタスクのための明確に定義されたエンドポイントインターフェースを確立し、MLプロバイダとMLコンシューマ間のコミュニケーションを明確にする。
実世界のMoveReminderアプリケーションのケーススタディを通じてプロトコルを評価する。
論文 参考訳(メタデータ) (2024-01-12T11:27:15Z) - ChEF: A Comprehensive Evaluation Framework for Standardized Assessment
of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。
本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。
詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文 参考訳(メタデータ) (2023-11-05T16:01:40Z) - Counterfactual Explanations for Machine Learning on Multivariate Time
Series Data [0.9274371635733836]
本稿では、教師付き機械学習フレームワークに対して、対実的説明を提供するための新しい説明可能性手法を提案する。
提案手法は,信頼性やロバスト性など,いくつかの異なるMLフレームワークやデータセット上での最先端の説明可能性手法よりも優れている。
論文 参考訳(メタデータ) (2020-08-25T02:04:59Z) - MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文 参考訳(メタデータ) (2020-02-19T17:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。