論文の概要: ML-EXray: Visibility into ML Deployment on the Edge
- arxiv url: http://arxiv.org/abs/2111.04779v1
- Date: Mon, 8 Nov 2021 19:29:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 02:02:59.063839
- Title: ML-EXray: Visibility into ML Deployment on the Edge
- Title(参考訳): ML-EXray:エッジ上のMLデプロイメントへの可視性
- Authors: Hang Qiu, Ioanna Vavelidou, Jian Li, Evgenya Pergament, Pete Warden,
Sandeep Chinchali, Zain Asgar, Sachin Katti
- Abstract要約: ディープニューラルネットワーク(DNN)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。
これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしに、パフォーマンスが10%以上低下する可能性がある。
本稿では、ML実行の層レベルの詳細を可視化するエンドツーエンドフレームワークであるML-EXrayを紹介する。
- 参考スコア(独自算出の注目度): 8.485778613610002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benefiting from expanding cloud infrastructure, deep neural networks (DNNs)
today have increasingly high performance when trained in the cloud. Researchers
spend months of effort competing for an extra few percentage points of model
accuracy. However, when these models are actually deployed on edge devices in
practice, very often, the performance can abruptly drop over 10% without
obvious reasons. The key challenge is that there is not much visibility into ML
inference execution on edge devices, and very little awareness of potential
issues during the edge deployment process. We present ML-EXray, an end-to-end
framework, which provides visibility into layer-level details of the ML
execution, and helps developers analyze and debug cloud-to-edge deployment
issues. More often than not, the reason for sub-optimal edge performance does
not only lie in the model itself, but every operation throughout the data flow
and the deployment process. Evaluations show that ML-EXray can effectively
catch deployment issues, such as pre-processing bugs, quantization issues,
suboptimal kernels, etc. Using ML-EXray, users need to write less than 15 lines
of code to fully examine the edge deployment pipeline. Eradicating these
issues, ML-EXray can correct model performance by up to 30%, pinpoint
error-prone layers, and guide users to optimize kernel execution latency by two
orders of magnitude. Code and APIs will be released as an open-source
multi-lingual instrumentation library and a Python deployment validation
library.
- Abstract(参考訳): クラウドインフラストラクチャの拡大と相まって、DNN(Deep Neural Network)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。
研究者たちは数ヶ月かけて、モデル精度の余分なポイントを競う。
しかし、これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしにパフォーマンスが10%以上低下する可能性がある。
重要な課題は、エッジデバイス上でのML推論実行の視認性があまりなく、エッジデプロイメントプロセスにおける潜在的な問題に対する認識がほとんどないことです。
エンドツーエンドフレームワークであるML-EXrayは、ML実行の層レベルの詳細を可視化し、開発者がクラウドからエッジへのデプロイメントの問題を分析しデバッグするのに役立つ。
多くの場合、最適でないエッジパフォーマンスの理由は、モデル自体だけでなく、データフローやデプロイメントプロセス全体にわたるすべての操作にも関係しています。
評価によると、ML-EXrayは、前処理のバグ、量子化の問題、最適化されたカーネルなどのデプロイメント問題を効果的にキャッチできる。
ML-EXrayを使用することで、エッジデプロイメントパイプラインを完全に検査するために、15行未満のコードを書く必要がある。
これらの問題を排除し、ML-EXrayはパフォーマンスを最大30%改善し、エラーが発生しやすいレイヤをピンポイントし、ユーザはカーネルの実行遅延を2桁まで最適化できる。
コードとAPIは、オープンソースの多言語インスツルメンテーションライブラリとPythonデプロイメントバリデーションライブラリとしてリリースされる。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。
SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。
我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文 参考訳(メタデータ) (2023-11-28T05:53:55Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。
推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。
トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文 参考訳(メタデータ) (2023-03-21T04:01:55Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - MLGOPerf: An ML Guided Inliner to Optimize Performance [7.314201117946244]
本稿では,LLVMのML-Inlinerを用いて,パフォーマンスを最適化する初のエンドツーエンドフレームワークを提案する。
セカンダリMLモデルを使用して、リターゲット強化学習エージェントのトレーニングに使用する報酬を生成する。
分析中の関数のインライン後のスピードアップを予測し、プライマリモデルのための高速なトレーニングフレームワークを可能にする。
論文 参考訳(メタデータ) (2022-07-18T05:47:29Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。
私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文 参考訳(メタデータ) (2020-06-09T07:48:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。