Fugu-MT 論文翻訳(概要): MLHarness: A Scalable Benchmarking System for MLCommons

論文の概要: MLHarness: A Scalable Benchmarking System for MLCommons

arxiv url: http://arxiv.org/abs/2111.05231v1
Date: Tue, 9 Nov 2021 16:11:49 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-10 17:48:36.127133
Title: MLHarness: A Scalable Benchmarking System for MLCommons
Title（参考訳）: MLHarness:MLCommons用のスケーラブルなベンチマークシステム
Authors: Yen-Hsiang Chang, Jianhao Pu, Wen-mei Hwu, Jinjun Xiong
Abstract要約: MLCommons推論のためのスケーラブルなベンチマークハーネスシステムを提案する。 MLCommons Inferenceによって定義された標準ベンチマークプロセスをコーデレートする。モデル開発者がモデルとデータセットをMLCommons Inferenceにコントリビュートするための、簡単で宣言的なアプローチを提供する。
参考スコア（独自算出の注目度）: 16.490366217665205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the society's growing adoption of machine learning (ML) and deep learning (DL) for various intelligent solutions, it becomes increasingly imperative to standardize a common set of measures for ML/DL models with large scale open datasets under common development practices and resources so that people can benchmark and compare models quality and performance on a common ground. MLCommons has emerged recently as a driving force from both industry and academia to orchestrate such an effort. Despite its wide adoption as standardized benchmarks, MLCommons Inference has only included a limited number of ML/DL models (in fact seven models in total). This significantly limits the generality of MLCommons Inference's benchmarking results because there are many more novel ML/DL models from the research community, solving a wide range of problems with different inputs and outputs modalities. To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems. This harness system is developed on top of the MLModelScope system, and will be open sourced to the community. Our experimental results demonstrate the superior flexibility and scalability of this harness system for MLCommons Inference benchmarking.
Abstract（参考訳）: 様々なインテリジェントなソリューションに機械学習(ml)とディープラーニング(dl)が採用されるにつれて、ml/dlモデルの一般的な尺度セットと大規模なオープンデータセットを共通開発プラクティスとリソースの下で標準化することがますます重要になってきており、人々が共通の基盤でモデルの質とパフォーマンスをベンチマークし比較できるようになっている。 MLCommonsは最近、業界と学界の両方からこのような取り組みを組織化するための推進力として登場した。標準化されたベンチマークとして広く採用されているが、MLCommons InferenceにはML/DLモデルが限られている(実際には合計7モデル)。これは、研究コミュニティから多くの新しいml/dlモデルがあり、様々な入力と出力のモダリティで幅広い問題を解決するため、mlcommons推論のベンチマーク結果の汎用性を著しく制限している。 To address such a limitation, we propose MLHarness, a scalable benchmarking harness system for MLCommons Inference with three distinctive features: (1) it codifies the standard benchmark process as defined by MLCommons Inference including the models, datasets, DL frameworks, and software and hardware systems; (2) it provides an easy and declarative approach for model developers to contribute their models and datasets to MLCommons Inference; and (3) it includes the support of a wide range of models with varying inputs/outputs modalities so that we can scalably benchmark these models across different datasets, frameworks, and hardware systems. このハーネスシステムはMLModelScopeシステム上で開発されており、コミュニティにオープンソース化される予定である。実験結果は,mlcommons推論ベンチマークにおいて,このハーネスシステムの優れた柔軟性とスケーラビリティを示す。

関連論文リスト

GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文参考訳（メタデータ） (2025-06-18T17:59:49Z)
Unifying Multimodal Large Language Model Capabilities and Modalities via Model Merging [103.98582374569789]
モデルマージは、複数のエキスパートモデルを単一のモデルにまとめることを目的としており、ストレージとサービスコストを削減している。これまでの研究は主に、コードと数学のタスクに視覚分類モデルやLLM(Large Language Models)を統合することに焦点を当ててきた。本稿では,VQA,Geometry,Chart,OCR,Gundingといった複数のタスクを含むMLLMのモデルマージベンチマークを紹介する。
論文参考訳（メタデータ） (2025-05-26T12:23:14Z)
Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
Benchmarking Android Malware Detection: Rethinking the Role of Traditional and Deep Learning Models [6.9053043489744015]
Androidのマルウェア検出は、従来の機械学習(ML)とディープラーニング(DL)の両方のアプローチを用いて、広範囲に研究されている。多くの最先端検出モデルは優れた性能を主張するが、限られた比較に頼っていることが多い。これにより、DLベースのアプローチのパフォーマンスの堅牢性と、よりシンプルで効率的なMLモデルの潜在的監視に関する懸念が高まる。
論文参考訳（メタデータ） (2025-02-20T20:56:05Z)
Performance Law of Large Language Models [58.32539851241063]
性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを導くために用いられる。性能法則は、LLMアーキテクチャの選択と計算資源の効率的な割り当てを広範な実験なしで導くのに利用できる。
論文参考訳（メタデータ） (2024-08-19T11:09:12Z)
xGen-MM (BLIP-3): A Family of Open Large Multimodal Models [157.44696790158784]
本稿では,LMM(Large Multimodal Models)を開発するためのフレームワークであるxGen-MMを紹介する。このフレームワークは、慎重にキュレートされたデータセット、トレーニングレシピ、モデルアーキテクチャ、結果のLMMスイートで構成されている。私たちのモデルは、シングルイメージとマルチイメージのベンチマークを含む、さまざまなタスクにわたって厳格な評価を受けています。
論文参考訳（メタデータ） (2024-08-16T17:57:01Z)
A Large-Scale Study of Model Integration in ML-Enabled Software Systems [4.776073133338119]
機械学習(ML)とそのシステムへの組み込みは、ソフトウェア集約システムのエンジニアリングを大きく変えた。伝統的に、ソフトウェアエンジニアリングは、ソースコードやそれらを作成するプロセスなど、手作業で作成したアーティファクトに焦点を当てている。我々は、GitHub上で2,928以上のオープンソースシステムをカバーする、実際のML対応ソフトウェアシステムに関する最初の大規模な研究を提示する。
論文参考訳（メタデータ） (2024-08-12T15:28:40Z)
Evaluating the Generalization Ability of Quantized LLMs: Benchmark, Analysis, and Toolbox [46.39670209441478]
大規模言語モデル(LLM)は、複数のシナリオでエキサイティングな進歩を見せている。メモリフットプリントと推論コストを削減する効果的な方法として、量子化は低ビット幅での性能劣化にも直面する。この研究は、評価システム、詳細な分析、一般的なツールボックスを含む、この研究トピックのための包括的なベンチマークスイートを提供する。
論文参考訳（メタデータ） (2024-06-15T12:02:14Z)
Uni-MoE: Scaling Unified Multimodal LLMs with Mixture of Experts [54.529880848937104]
そこで我々は,MoEアーキテクチャをUni-MoEと呼ぶ一貫したMLLMを開発し,様々なモダリティを扱えるようにした。具体的には、統一マルチモーダル表現のためのコネクタを持つモダリティ特化エンコーダを特徴とする。マルチモーダルデータセットの包括的集合を用いた命令調整Uni-MoEの評価を行った。
論文参考訳（メタデータ） (2024-05-18T12:16:01Z)
Model Composition for Multimodal Large Language Models [71.5729418523411]
本稿では,既存のMLLMのモデル構成による新しいパラダイムを提案する。我々の基本的な実装であるNaiveMCは、モダリティエンコーダを再利用し、LLMパラメータをマージすることで、このパラダイムの有効性を実証する。
論文参考訳（メタデータ） (2024-02-20T06:38:10Z)
ML-On-Rails: Safeguarding Machine Learning Models in Software Systems A Case Study [4.087995998278127]
機械学習モデルを保護するためのプロトコルであるML-On-Railsを紹介する。 ML-On-Railsは、さまざまなMLタスクのための明確に定義されたエンドポイントインターフェースを確立し、MLプロバイダとMLコンシューマ間のコミュニケーションを明確にする。実世界のMoveReminderアプリケーションのケーススタディを通じてプロトコルを評価する。
論文参考訳（メタデータ） (2024-01-12T11:27:15Z)
ChEF: A Comprehensive Evaluation Framework for Standardized Assessment of Multimodal Large Language Models [49.48109472893714]
MLLM(Multimodal Large Language Models)は、視覚コンテンツと無数の下流タスクとを相互作用する優れた能力を示す。本稿では,各MLLMを全体プロファイルし,異なるMLLMを比較した最初の総合評価フレームワーク(ChEF)を提案する。詳細な実装をすべて公開して、さらなる分析と、新しいレシピやモデルを統合するための使い易いモジュラーツールキットを提供します。
論文参考訳（メタデータ） (2023-11-05T16:01:40Z)
Counterfactual Explanations for Machine Learning on Multivariate Time Series Data [0.9274371635733836]
本稿では、教師付き機械学習フレームワークに対して、対実的説明を提供するための新しい説明可能性手法を提案する。提案手法は,信頼性やロバスト性など,いくつかの異なるMLフレームワークやデータセット上での最先端の説明可能性手法よりも優れている。
論文参考訳（メタデータ） (2020-08-25T02:04:59Z)
MLModelScope: A Distributed Platform for Model Evaluation and Benchmarking at Scale [32.62513495487506]
機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。 ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
論文参考訳（メタデータ） (2020-02-19T17:13:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。