Fugu-MT 論文翻訳(概要): ML-EXray: Visibility into ML Deployment on the Edge

論文の概要: ML-EXray: Visibility into ML Deployment on the Edge

arxiv url: http://arxiv.org/abs/2111.04779v1
Date: Mon, 8 Nov 2021 19:29:44 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-11 02:02:59.063839
Title: ML-EXray: Visibility into ML Deployment on the Edge
Title（参考訳）: ML-EXray:エッジ上のMLデプロイメントへの可視性
Authors: Hang Qiu, Ioanna Vavelidou, Jian Li, Evgenya Pergament, Pete Warden, Sandeep Chinchali, Zain Asgar, Sachin Katti
Abstract要約: ディープニューラルネットワーク(DNN)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしに、パフォーマンスが10%以上低下する可能性がある。本稿では、ML実行の層レベルの詳細を可視化するエンドツーエンドフレームワークであるML-EXrayを紹介する。
参考スコア（独自算出の注目度）: 8.485778613610002
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Benefiting from expanding cloud infrastructure, deep neural networks (DNNs) today have increasingly high performance when trained in the cloud. Researchers spend months of effort competing for an extra few percentage points of model accuracy. However, when these models are actually deployed on edge devices in practice, very often, the performance can abruptly drop over 10% without obvious reasons. The key challenge is that there is not much visibility into ML inference execution on edge devices, and very little awareness of potential issues during the edge deployment process. We present ML-EXray, an end-to-end framework, which provides visibility into layer-level details of the ML execution, and helps developers analyze and debug cloud-to-edge deployment issues. More often than not, the reason for sub-optimal edge performance does not only lie in the model itself, but every operation throughout the data flow and the deployment process. Evaluations show that ML-EXray can effectively catch deployment issues, such as pre-processing bugs, quantization issues, suboptimal kernels, etc. Using ML-EXray, users need to write less than 15 lines of code to fully examine the edge deployment pipeline. Eradicating these issues, ML-EXray can correct model performance by up to 30%, pinpoint error-prone layers, and guide users to optimize kernel execution latency by two orders of magnitude. Code and APIs will be released as an open-source multi-lingual instrumentation library and a Python deployment validation library.
Abstract（参考訳）: クラウドインフラストラクチャの拡大と相まって、DNN(Deep Neural Network)は現在、クラウドでトレーニングされた場合、パフォーマンスが向上している。研究者たちは数ヶ月かけて、モデル精度の余分なポイントを競う。しかし、これらのモデルが実際にエッジデバイスにデプロイされている場合、非常に頻繁に、明らかな理由なしにパフォーマンスが10%以上低下する可能性がある。重要な課題は、エッジデバイス上でのML推論実行の視認性があまりなく、エッジデプロイメントプロセスにおける潜在的な問題に対する認識がほとんどないことです。エンドツーエンドフレームワークであるML-EXrayは、ML実行の層レベルの詳細を可視化し、開発者がクラウドからエッジへのデプロイメントの問題を分析しデバッグするのに役立つ。多くの場合、最適でないエッジパフォーマンスの理由は、モデル自体だけでなく、データフローやデプロイメントプロセス全体にわたるすべての操作にも関係しています。評価によると、ML-EXrayは、前処理のバグ、量子化の問題、最適化されたカーネルなどのデプロイメント問題を効果的にキャッチできる。 ML-EXrayを使用することで、エッジデプロイメントパイプラインを完全に検査するために、15行未満のコードを書く必要がある。これらの問題を排除し、ML-EXrayはパフォーマンスを最大30%改善し、エラーが発生しやすいレイヤをピンポイントし、ユーザはカーネルの実行遅延を2桁まで最適化できる。コードとAPIは、オープンソースの多言語インスツルメンテーションライブラリとPythonデプロイメントバリデーションライブラリとしてリリースされる。

関連論文リスト

Omniwise: Predicting GPU Kernels Performance with LLMs [0.06666419797034795]
Omniwiseは、GPUカーネルのパフォーマンス予測に大規模言語モデル(LLM)を適用する、エンド・ツー・エンドの自己教師型微調整パイプラインである。メモリ帯域幅、キャッシュヒット率、GFLOP、演算強度などの重要なパフォーマンス指標を、コード実行やプロファイリングツールを必要とせずに、カーネルコードから直接予測することができる。提案手法は,AMD MI250およびMI300Xアーキテクチャ上で実行されるGPUカーネル上での相対誤差の10%以内の予測を90%以上達成する。
論文参考訳（メタデータ） (2025-06-25T23:36:44Z)
What Limits Virtual Agent Application? OmniBench: A Scalable Multi-Dimensional Benchmark for Essential Virtual Agent Capabilities [56.646832992178105]
我々は、制御可能な複雑性のタスクを合成するための自動パイプラインを備えたクロスプラットフォームグラフベースのベンチマークであるOmniBenchを紹介した。 OmniEvalは、サブタスクレベルの評価、グラフベースのメトリクス、および10機能にわたる包括的なテストを含む多次元評価フレームワークである。我々のデータセットには、20のシナリオにわたる36万のグラフ構造化タスクが含まれており、人間の受け入れ率は91%に達する。
論文参考訳（メタデータ） (2025-06-10T15:59:38Z)
EfficientLLM: Scalable Pruning-Aware Pretraining for Architecture-Agnostic Edge Language Models [25.058673320372677]
大規模言語モデル(LLM)は法則のスケーリングによって駆動され、大規模なモデルサイズでインテリジェンス緊急を達成する。本研究は、より大規模な最適化モデルの性能を維持することに焦点を当てたプルーニング対応事前学習を提案する。我々は,LLM圧縮のスケールアップと境界の拡張により,高品質なエッジ言語モデルであるEfficientLLMを実現することを明らかにした。
論文参考訳（メタデータ） (2025-02-10T16:51:03Z)
On the Cost of Model-Serving Frameworks: An Experimental Evaluation [2.6232657671486983]
実運用環境でモデルを効果的にデプロイし、管理するためには、サービング戦略が不可欠です。これらの戦略により、実際のアプリケーションでモデルが利用可能で、スケーラブルで、信頼性があり、パフォーマンスが保証される。 DL固有のフレームワーク(TensorFlow ServingとTorchServe)は、3つの汎用MLフレームワークよりも大幅にレイテンシが低いことを示す。
論文参考訳（メタデータ） (2024-11-15T16:36:21Z)
$\textit{X}^2$-DFD: A framework for e${X}$plainable and e${X}$tendable Deepfake Detection [52.14468236527728]
3つのコアモジュールからなる新しいフレームワークX2$-DFDを提案する。最初のモジュールであるモデル特徴評価(MFA)は、MLLMに固有の偽機能の検出能力を計測し、これらの機能の下位ランキングを提供する。第2のモジュールであるStrong Feature Strengthening (SFS)は、上位機能に基づいて構築されたデータセット上でMLLMを微調整することで、検出と説明機能を強化する。第3のモジュールであるWak Feature Supplementing (WFS)は、外部専用の機能を統合することで、低階機能における微調整MLLMの機能を改善する。
論文参考訳（メタデータ） (2024-10-08T15:28:33Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
FFN-SkipLLM: A Hidden Gem for Autoregressive Decoding with Adaptive Feed Forward Skipping [49.66872823080736]
自己回帰型大規模言語モデル(LLaMa, GPT)は、言語理解と生成において顕著な成功を収めている。発生時に発生する過負荷を軽減するため、いくつかの早期退避および層下降戦略が提案されている。本稿では,入力適応型フィードフォワードスキップ戦略であるFFN-SkipLLMを提案する。
論文参考訳（メタデータ） (2024-04-05T02:35:43Z)
SEED-Bench-2: Benchmarking Multimodal Large Language Models [67.28089415198338]
MLLM(Multimodal large language model)は、最近、テキストだけでなく、インターリーブされたマルチモーダル入力の画像を生成できることを実証した。 SEED-Bench-2は、正確な人間のアノテーションを持つ24Kの多重選択質問で構成されており、27次元にまたがっている。我々は,23個の著名なオープンソースMLLMの性能を評価し,貴重な観察結果を要約した。
論文参考訳（メタデータ） (2023-11-28T05:53:55Z)
ML-Bench: Evaluating Large Language Models and Agents for Machine Learning Tasks on Repository-Level Code [76.84199699772903]
ML-Benchは、既存のコードリポジトリを利用してタスクを実行する現実世界のプログラミングアプリケーションに根ざしたベンチマークである。 LLM(Large Language Model)とAIエージェントの両方を評価するために、事前に定義されたデプロイメント環境でLLMのテキスト-コード変換を評価するML-LLM-Benchと、Linuxサンドボックス環境でエンドツーエンドのタスク実行で自律エージェントをテストするML-Agent-Benchの2つの設定が採用されている。
論文参考訳（メタデータ） (2023-11-16T12:03:21Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Efficient Multi-stage Inference on Tabular Data [1.6371451481715193]
従来型の知恵は、MLコードをRPC API経由で製品コードによってクエリされるサービスに分離することを好む。推論アルゴリズムを単純化し、それらを製品コードに組み込んでネットワーク通信を減らします。トレーニングと推論の両方にAutoMLによる最適化を適用することで、推論遅延を1.3倍、CPUリソースを30%削減し、アプリケーションフロントエンドとMLバックエンド間のネットワーク通信を約50%削減します。
論文参考訳（メタデータ） (2023-03-21T04:01:55Z)
ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。 ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。 ezDPSは,全測定値における一般的な回路ベース手法よりも1～3桁効率が高いことを示す。
論文参考訳（メタデータ） (2022-12-11T06:47:28Z)
Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文参考訳（メタデータ） (2022-05-30T03:43:35Z)
MLModelCI: An Automatic Cloud Platform for Efficient MLaaS [15.029094196394862]
当社はこのプラットフォームを,Apache 2.0ライセンス下でGitHub上でオープンソースプロジェクトとしてリリースしています。私たちのシステムは、現在のMLトレーニングとサービスシステムのギャップを埋めます。
論文参考訳（メタデータ） (2020-06-09T07:48:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。