論文の概要: ML-EXray: Visibility into ML Deployment on the Edge
- arxiv url: http://arxiv.org/abs/2111.04779v1
- Date: Mon, 8 Nov 2021 19:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 02:02:59.063839
- Title: ML-EXray: Visibility into ML Deployment on the Edge
- Title(参考訳): ML-EXray:エッジ上のMLデプロイメントへの可視性
- Authors: Hang Qiu, Ioanna Vavelidou, Jian Li, Evgenya Pergament, Pete Warden,
Sandeep Chinchali, Zain Asgar, Sachin Katti
- Abstract要約: ディープニューラルネットワーク(DNN)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。
これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしに、パフォーマンスが10%以上低下する可能性がある。
本稿では、ML実行の層レベルの詳細を可視化するエンドツーエンドフレームワークであるML-EXrayを紹介する。
- 参考スコア(独自算出の注目度): 8.485778613610002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from expanding cloud infrastructure, deep neural networks (DNNs)
today have increasingly high performance when trained in the cloud. Researchers
spend months of effort competing for an extra few percentage points of model
accuracy. However, when these models are actually deployed on edge devices in
practice, very often, the performance can abruptly drop over 10% without
obvious reasons. The key challenge is that there is not much visibility into ML
inference execution on edge devices, and very little awareness of potential
issues during the edge deployment process. We present ML-EXray, an end-to-end
framework, which provides visibility into layer-level details of the ML
execution, and helps developers analyze and debug cloud-to-edge deployment
issues. More often than not, the reason for sub-optimal edge performance does
not only lie in the model itself, but every operation throughout the data flow
and the deployment process. Evaluations show that ML-EXray can effectively
catch deployment issues, such as pre-processing bugs, quantization issues,
suboptimal kernels, etc. Using ML-EXray, users need to write less than 15 lines
of code to fully examine the edge deployment pipeline. Eradicating these
issues, ML-EXray can correct model performance by up to 30%, pinpoint
error-prone layers, and guide users to optimize kernel execution latency by two
orders of magnitude. Code and APIs will be released as an open-source
multi-lingual instrumentation library and a Python deployment validation
library.
- Abstract(参考訳): クラウドインフラストラクチャの拡大と相まって、DNN(Deep Neural Network)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。
研究者たちは数ヶ月かけて、モデル精度の余分なポイントを競う。
しかし、これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしにパフォーマンスが10%以上低下する可能性がある。
重要な課題は、エッジデバイス上でのML推論実行の視認性があまりなく、エッジデプロイメントプロセスにおける潜在的な問題に対する認識がほとんどないことです。
エンドツーエンドフレームワークであるML-EXrayは、ML実行の層レベルの詳細を可視化し、開発者がクラウドからエッジへのデプロイメントの問題を分析しデバッグするのに役立つ。
多くの場合、最適でないエッジパフォーマンスの理由は、モデル自体だけでなく、データフローやデプロイメントプロセス全体にわたるすべての操作にも関係しています。
評価によると、ML-EXrayは、前処理のバグ、量子化の問題、最適化されたカーネルなどのデプロイメント問題を効果的にキャッチできる。
ML-EXrayを使用することで、エッジデプロイメントパイプラインを完全に検査するために、15行未満のコードを書く必要がある。
これらの問題を排除し、ML-EXrayはパフォーマンスを最大30%改善し、エラーが発生しやすいレイヤをピンポイントし、ユーザはカーネルの実行遅延を2桁まで最適化できる。
コードとAPIは、オープンソースの多言語インスツルメンテーションライブラリとPythonデプロイメントバリデーションライブラリとしてリリースされる。
関連論文リスト
- On the Cost of Model-Serving Frameworks: An Experimental Evaluation [2.6232657671486983]
実運用環境でモデルを効果的にデプロイし、管理するためには、サービング戦略が不可欠です。
これらの戦略により、実際のアプリケーションでモデルが利用可能で、スケーラブルで、信頼性があり、パフォーマンスが保証される。
DL固有のフレームワーク(TensorFlow ServingとTorchServe)は、3つの汎用MLフレームワークよりも大幅にレイテンシが低いことを示す。
論文 参考訳(メタデータ) (2024-11-15T16:36:21Z) - $\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。
最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。
第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。
第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文 参考訳(メタデータ) (2024-10-08T15:28:33Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。
発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。
本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文 参考訳(メタデータ) (2024-04-05T02:35:43Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。
LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。
各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。
我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文 参考訳(メタデータ) (2023-10-05T04:06:12Z) - Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文 参考訳(メタデータ) (2023-03-21T04:01:55Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。
私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文 参考訳(メタデータ) (2020-06-09T07:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。