論文の概要: Pick the Right Edge Device: Towards Power and Performance Estimation of
CUDA-based CNNs on GPGPUs
- arxiv url: http://arxiv.org/abs/2102.02645v1
- Date: Tue, 2 Feb 2021 06:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-05 15:55:53.125218
- Title: Pick the Right Edge Device: Towards Power and Performance Estimation of
CUDA-based CNNs on GPGPUs
- Title(参考訳): 右エッジデバイスの選択:GPGPU上でのCUDAベースのCNNのパワーと性能推定に向けて
- Authors: Christopher A. Metz, Mehran Goli, Rolf Drechsler
- Abstract要約: 機械学習(ML)の強力なテクニックとしての出現は、ビジネスのほぼすべての分野において、運用効率の向上や新たな価値提案の開発に役立っている。
MLモデルのデプロイとメンテナンスの課題に加えて、これらのモデルを実行するための適切なエッジデバイス(GPGPUなど)を選択することは、今日の組織が直面している最も厳しい課題の1つです。
本稿では,GPGPU上でのMLベースのCNNの消費電力と性能を早期に推定する手法を提案する。
- 参考スコア(独自算出の注目度): 3.6822821281064035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of Machine Learning (ML) as a powerful technique has been
helping nearly all fields of business to increase operational efficiency or to
develop new value propositions. Besides the challenges of deploying and
maintaining ML models, picking the right edge device (e.g., GPGPUs) to run
these models (e.g., CNN with the massive computational process) is one of the
most pressing challenges faced by organizations today. As the cost of renting
(on Cloud) or purchasing an edge device is directly connected to the cost of
final products or services, choosing the most efficient device is essential.
However, this decision making requires deep knowledge about performance and
power consumption of the ML models running on edge devices that must be
identified at the early stage of ML workflow.
In this paper, we present a novel ML-based approach that provides ML
engineers with the early estimation of both power consumption and performance
of CUDA-based CNNs on GPGPUs. The proposed approach empowers ML engineers to
pick the most efficient GPGPU for a given CNN model at the early stage of
development.
- Abstract(参考訳): 機械学習(ML)の強力なテクニックとしての出現は、ビジネスのほぼすべての分野において、運用効率の向上や新たな価値提案の開発に役立っている。
MLモデルのデプロイとメンテナンスの課題に加えて、これらのモデルを実行するために適切なエッジデバイス(GPGPUなど)を選択すること(例えば、大規模な計算プロセスを備えたCNN)は、今日の組織が直面する最も困難な課題の1つです。
レンタル(クラウド上で)やエッジデバイスを購入するコストが最終製品やサービスのコストに直接つながるため、最も効率的なデバイスを選択することが不可欠である。
しかし、この意思決定には、MLワークフローの初期段階で識別しなければならないエッジデバイス上で動作するMLモデルのパフォーマンスと電力消費に関する深い知識が必要です。
本稿では、GPGPU上でのCUDAベースのCNNの消費電力と性能の早期推定をMLエンジニアに提供する新しいMLベースのアプローチを紹介します。
提案されたアプローチにより、MLエンジニアは開発初期のCNNモデルに対して最も効率的なGPGPUを選択することができます。
関連論文リスト
- Automated Text Scoring in the Age of Generative AI for the GPU-poor [49.1574468325115]
自動テキストスコアリングのためのオープンソースの小規模生成言語モデルの性能と効率を解析する。
以上の結果から, GLMは, 最先端の高性能化には至らず, 適正な調整が可能であることが示唆された。
論文 参考訳(メタデータ) (2024-07-02T01:17:01Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Machine Learning aided Computer Architecture Design for CNN Inferencing
Systems [0.0]
我々は,それぞれ5.03%,5.94%のMAPEを用いて,推論中のCNNのパワーと性能を予測する手法を開発した。
我々のアプローチは、コンピュータアーキテクトが開発初期段階のパワーと性能を見積もることを可能にし、多くのプロトタイプの必要性を減らします。
論文 参考訳(メタデータ) (2023-08-10T06:17:46Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - ParaGraph: Weighted Graph Representation for Performance Optimization of
HPC Kernels [1.304892050913381]
抽象構文木を拡張した並列アプリケーションのためのグラフベースの新しいプログラム表現を提案する。
提案した表現は,OpenMPコード領域のランタイムを予測するために,グラフニューラルネットワーク(GNN)をトレーニングすることで評価する。
その結果,本手法は実効性があり,実行時予測では 0.004 から 0.01 に RMSE を正規化していることがわかった。
論文 参考訳(メタデータ) (2023-04-07T05:52:59Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Open-source FPGA-ML codesign for the MLPerf Tiny Benchmark [11.575901540758574]
我々は,フィールドプログラマブルゲートアレイ(FPGA)プラットフォーム上でのTiny Inference Benchmarkの開発経験を示す。
我々は、FPGA上で最適化されたニューラルネットワークのAIハードウェアコーデックを民主化することを目的として、オープンソースのhls4mlとFINN perJを使用している。
ソリューションはシステムオンチップ(Pynq-Z2)と純粋なFPGA(Arty A7-100T)プラットフォームにデプロイされる。
論文 参考訳(メタデータ) (2022-06-23T15:57:17Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。