論文の概要: MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale
- arxiv url: http://arxiv.org/abs/2002.08295v1
- Date: Wed, 19 Feb 2020 17:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:46:05.510338
- Title: MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale
- Title(参考訳): MLModelScope: 大規模モデル評価とベンチマークのための分散プラットフォーム
- Authors: Abdul Dakkak, Cheng Li, Jinjun Xiong, Wen-mei Hwu
- Abstract要約: 機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
- 参考スコア(独自算出の注目度): 32.62513495487506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) and Deep Learning (DL) innovations are being introduced
at such a rapid pace that researchers are hard-pressed to analyze and study
them. The complicated procedures for evaluating innovations, along with the
lack of standard and efficient ways of specifying and provisioning ML/DL
evaluation, is a major "pain point" for the community. This paper proposes
MLModelScope, an open-source, framework/hardware agnostic, extensible and
customizable design that enables repeatable, fair, and scalable model
evaluation and benchmarking. We implement the distributed design with support
for all major frameworks and hardware, and equip it with web, command-line, and
library interfaces. To demonstrate MLModelScope's capabilities we perform
parallel evaluation and show how subtle changes to model evaluation pipeline
affects the accuracy and HW/SW stack choices affect performance.
- Abstract(参考訳): 機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ml/dlの評価の標準的かつ効率的な方法の欠如とともに、イノベーションを評価するための複雑な手順は、コミュニティにとって大きな"ペインポイント"である。
本稿では,mlmodelscopeを提案する。mlmodelscopeは,フレームワーク/ハードウェア非依存で拡張可能でカスタマイズ可能な設計で,反復可能,公平,スケーラブルなモデル評価とベンチマークを可能にする。
分散設計を主要なフレームワークやハードウェアすべてをサポートして実装し、Web、コマンドライン、ライブラリインターフェースと同等にしています。
MLModelScopeの能力を示すため、並列評価を行い、モデル評価パイプラインの微妙な変更が精度やHW/SWスタックの選択がパフォーマンスに与える影響を示す。
関連論文リスト
- Automatic Evaluation for Text-to-image Generation: Task-decomposed Framework, Distilled Training, and Meta-evaluation Benchmark [62.58869921806019]
GPT-4oに基づくタスク分解評価フレームワークを提案し、新しいトレーニングデータセットを自動構築する。
我々は、GPT-4oの評価能力を7BオープンソースMLLM、MiniCPM-V-2.6に効果的に蒸留するための革新的なトレーニング戦略を設計する。
実験結果から,我々の蒸留したオープンソースMLLMは,現在のGPT-4oベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2024-11-23T08:06:06Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - TP-Eval: Tap Multimodal LLMs' Potential in Evaluation by Customizing Prompts [13.478250875892414]
マルチモーダルな大言語モデル(MLLM)は、その印象的な機能に多くの注目を集めています。
本稿では、既存のベンチマークにおけるこの欠陥を分析し、TP-Evalと呼ばれる新しい評価フレームワークを提案する。
TP-Evalは、オリジナルのプロンプトを異なるモデル向けにカスタマイズされたプロンプトに書き換える。
論文 参考訳(メタデータ) (2024-10-23T17:54:43Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - SWITCH: An Exemplar for Evaluating Self-Adaptive ML-Enabled Systems [1.2277343096128712]
QoS(Quality of Service)の維持にはMLS(Machine Learning-Enabled Systems)が不可欠である
機械学習モデルバランサ(Machine Learning Model Balancer)は、動的MLモデルの切り替えを容易にすることで、これらの不確実性に対処する概念である。
本稿では,このようなシステムにおける自己適応能力を高めるために開発されたSWITCHを紹介する。
論文 参考訳(メタデータ) (2024-02-09T11:56:44Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。