論文の概要: MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale
- arxiv url: http://arxiv.org/abs/2002.08295v1
- Date: Wed, 19 Feb 2020 17:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:46:05.510338
- Title: MLModelScope: A Distributed Platform for Model Evaluation and
Benchmarking at Scale
- Title(参考訳): MLModelScope: 大規模モデル評価とベンチマークのための分散プラットフォーム
- Authors: Abdul Dakkak, Cheng Li, Jinjun Xiong, Wen-mei Hwu
- Abstract要約: 機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ML/DL評価の標準化と提供方法の欠如とともに、イノベーションを評価するための複雑な手続きは、コミュニティにとって大きな「痛点」である。
本稿では,MLModelScopeを提案する。MLModelScopeは,フレームワークやハードウェアに依存しない,カスタマイズ可能な設計で,反復可能で公平でスケーラブルなモデル評価とベンチマークを可能にする。
- 参考スコア(独自算出の注目度): 32.62513495487506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine Learning (ML) and Deep Learning (DL) innovations are being introduced
at such a rapid pace that researchers are hard-pressed to analyze and study
them. The complicated procedures for evaluating innovations, along with the
lack of standard and efficient ways of specifying and provisioning ML/DL
evaluation, is a major "pain point" for the community. This paper proposes
MLModelScope, an open-source, framework/hardware agnostic, extensible and
customizable design that enables repeatable, fair, and scalable model
evaluation and benchmarking. We implement the distributed design with support
for all major frameworks and hardware, and equip it with web, command-line, and
library interfaces. To demonstrate MLModelScope's capabilities we perform
parallel evaluation and show how subtle changes to model evaluation pipeline
affects the accuracy and HW/SW stack choices affect performance.
- Abstract(参考訳): 機械学習(ML)とディープラーニング(DL)のイノベーションは急速に導入され、研究者はそれらを分析して研究することが難しくなっている。
ml/dlの評価の標準的かつ効率的な方法の欠如とともに、イノベーションを評価するための複雑な手順は、コミュニティにとって大きな"ペインポイント"である。
本稿では,mlmodelscopeを提案する。mlmodelscopeは,フレームワーク/ハードウェア非依存で拡張可能でカスタマイズ可能な設計で,反復可能,公平,スケーラブルなモデル評価とベンチマークを可能にする。
分散設計を主要なフレームワークやハードウェアすべてをサポートして実装し、Web、コマンドライン、ライブラリインターフェースと同等にしています。
MLModelScopeの能力を示すため、並列評価を行い、モデル評価パイプラインの微妙な変更が精度やHW/SWスタックの選択がパフォーマンスに与える影響を示す。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - UltraEval: A Lightweight Platform for Flexible and Comprehensive Evaluation for LLMs [74.1976921342982]
本稿では,ユーザフレンドリな評価フレームワークであるUltraEvalを紹介し,その軽量性,包括性,モジュール性,効率性を特徴とする。
その結果のコンポーザビリティにより、統一された評価ワークフロー内で、さまざまなモデル、タスク、プロンプト、ベンチマーク、メトリクスを自由に組み合わせることができる。
論文 参考訳(メタデータ) (2024-04-11T09:17:12Z) - PCA-Bench: Evaluating Multimodal Large Language Models in
Perception-Cognition-Action Chain [37.448177723993346]
MLLM(Multimodal Large Language Models)の統合能力を評価するベンチマークであるPCA-Benchを提案する。
タスク命令と多様なコンテキストが与えられたモデルでは、パーセプション、認知、アクションを推論チェーンにシームレスに統合する必要がある。
自動評価プロトコルであるPCA-Evalを提案し,10種類のMLLMを評価した。
論文 参考訳(メタデータ) (2024-02-21T07:09:58Z) - SWITCH: An Exemplar for Evaluating Self-Adaptive ML-Enabled Systems [1.2277343096128712]
QoS(Quality of Service)の維持にはMLS(Machine Learning-Enabled Systems)が不可欠である
機械学習モデルバランサ(Machine Learning Model Balancer)は、動的MLモデルの切り替えを容易にすることで、これらの不確実性に対処する概念である。
本稿では,このようなシステムにおける自己適応能力を高めるために開発されたSWITCHを紹介する。
論文 参考訳(メタデータ) (2024-02-09T11:56:44Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Model Share AI: An Integrated Toolkit for Collaborative Machine Learning
Model Development, Provenance Tracking, and Deployment in Python [0.0]
モデル共有AI(AIMS)は、コラボレーティブモデル開発、モデル前駆者追跡、モデルデプロイメントを合理化するように設計された、使いやすいMLOpsプラットフォームである。
AIMSは、協調的なプロジェクト空間と、見当たらない評価データに基づいてモデル提出をランク付けする標準化されたモデル評価プロセスを備えている。
AIMSでは、Scikit-Learn、Keras、PyTorch、ONNXで構築されたMLモデルを、ライブREST APIや自動生成されたWebアプリにデプロイすることができる。
論文 参考訳(メタデータ) (2023-09-27T15:24:39Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - Evaluating Representations with Readout Model Switching [18.475866691786695]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - A General Framework for Sample-Efficient Function Approximation in
Reinforcement Learning [132.45959478064736]
モデルベースとモデルフリー強化学習を統合した汎用フレームワークを提案する。
最適化に基づく探索のための分解可能な構造特性を持つ新しい推定関数を提案する。
本フレームワークでは,OPERA (Optimization-based Exploration with Approximation) という新しいサンプル効率アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-09-30T17:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。