Fugu-MT 論文翻訳(概要): Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls

論文の概要: Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls

arxiv url: http://arxiv.org/abs/2405.01851v1
Date: Fri, 3 May 2024 04:47:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-06 13:45:11.346200
Title: Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls
Title（参考訳）: 不均一なモバイルプロセッサのディープラーニング推論:可能性と落とし穴
Authors: Sicong Liu, Wentao Zhou, Zimu Zhou, Bin Guo, Minfan Wang, Cheng Fang, Zheng Lin, Zhiwen Yu,
Abstract要約: リアルタイムなインテリジェントなアプリケーションのために、リソース制約のあるモバイルデバイスに計算集約型ディープラーニング(DL)モデルをデプロイする需要が高まっている。モバイルデバイスは、異種プロセッサ間の並列実行を通じてDL推論を加速する可能性を秘めている。本稿では、異種モバイルプロセッサ上での並列DL推論に関連する機能と課題を評価するための総合的研究について述べる。
参考スコア（独自算出の注目度）: 22.49750818224266
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There is a growing demand to deploy computation-intensive deep learning (DL) models on resource-constrained mobile devices for real-time intelligent applications. Equipped with a variety of processing units such as CPUs, GPUs, and NPUs, the mobile devices hold potential to accelerate DL inference via parallel execution across heterogeneous processors. Various efficient parallel methods have been explored to optimize computation distribution, achieve load balance, and minimize communication cost across processors. Yet their practical effectiveness in the dynamic and diverse real-world mobile environment is less explored. This paper presents a holistic empirical study to assess the capabilities and challenges associated with parallel DL inference on heterogeneous mobile processors. Through carefully designed experiments covering various DL models, mobile software/hardware environments, workload patterns, and resource availability, we identify limitations of existing techniques and highlight opportunities for cross-level optimization.
Abstract（参考訳）: リアルタイムなインテリジェントなアプリケーションのために、リソース制約のあるモバイルデバイスに計算集約型ディープラーニング(DL)モデルをデプロイする需要が高まっている。 CPU、GPU、NPUなどの様々な処理ユニットを備えており、モバイルデバイスは異種プロセッサ間の並列実行を通じてDL推論を加速する可能性を秘めている。計算分布を最適化し、負荷バランスを達成し、プロセッサ間の通信コストを最小限に抑えるために、様々な効率的な並列手法が提案されている。しかし、ダイナミックで多様な実世界のモバイル環境におけるそれらの実践的効果は、明らかにされていない。本稿では、異種モバイルプロセッサ上での並列DL推論に関連する機能と課題を評価するための総合的研究について述べる。様々なDLモデル、モバイルソフトウェア/ハードウェア環境、ワークロードパターン、リソース可用性に関する慎重に設計された実験を通じて、既存の技術の限界を特定し、クロスレベル最適化の機会を強調します。

関連論文リスト

Deploying Large AI Models on Resource-Limited Devices with Split Federated Learning [39.73152182572741]
本稿では、SFLAM(Quantized Split Federated Fine-Tuning Large AI Model)と呼ばれる新しいフレームワークを提案する。エッジデバイスとサーバ間のトレーニング負荷を分割することで、SFLAMはデバイス上の大規模なモデルの操作を容易にすることができる。 SFLAMは、トレーニング効率を高めるために、量子化管理、電力制御、帯域幅割り当て戦略を取り入れている。
論文参考訳（メタデータ） (2025-04-12T07:55:11Z)
HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators [7.377592753635839]
HeteroLLMはモバイルデバイスで最速のLCM推論エンジンであり、層レベルとテンソルレベルのヘテロジニアス実行の両方をサポートする。評価結果から,HeteroLLMは他のモバイル側LPM推論エンジンと比較して9.99と4.36の性能改善が達成された。
論文参考訳（メタデータ） (2025-01-11T02:42:02Z)
PAL -- Parallel active learning for machine-learned potentials [2.787885218564319]
PALは、ALタスクを統合し、共有メモリおよび分散メモリシステム上での実行と通信を管理する。 PALは計算オーバーヘッドを大幅に削減し、スケーラビリティを向上し、CPUとGPUハードウェアの非同期並列化による大幅なスピードアップを実現している。この結果から,PALは能動的学習における高性能コンピューティング資源の効率的な活用を可能にし,科学研究・工学応用の進歩を促進することが示唆された。
論文参考訳（メタデータ） (2024-11-30T08:49:53Z)
Contemporary Model Compression on Large Language Models Inference [7.307436175842646]
大規模言語モデル(LLM)は、様々なタスクで最先端の結果を達成することによって、自然言語処理に革命をもたらした。 LLM推論の計算要求は、高いメモリ消費と遅い処理速度を含み、現実世界のアプリケーションにとって大きな課題となっている。本研究では, LLMのサイズと計算量を削減することにより, これらの課題に対処するモデル圧縮技術について検討する。
論文参考訳（メタデータ） (2024-09-03T15:35:01Z)
On-Device Language Models: A Comprehensive Review [26.759861320845467]
資源制約のあるデバイスに計算コストの高い大規模言語モデルをデプロイする際の課題について検討する。論文は、デバイス上での言語モデル、その効率的なアーキテクチャ、および最先端の圧縮技術について考察する。主要モバイルメーカーによるオンデバイス言語モデルのケーススタディは、実世界の応用と潜在的な利益を実証している。
論文参考訳（メタデータ） (2024-08-26T03:33:36Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Enabling Resource-efficient AIoT System with Cross-level Optimization: A survey [20.360136850102833]
この調査は、より自由なリソースパフォーマンストレードオフのために、より広い最適化スペースを提供することを目的としています。様々なレベルに散らばる問題やテクニックを統合することで、読者のつながりを理解し、さらなる議論を促すことを目指している。
論文参考訳（メタデータ） (2023-09-27T08:04:24Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)
Energy-Efficient Multi-Orchestrator Mobile Edge Learning [54.28419430315478]
Mobile Edge Learning(MEL)は、エッジデバイス上で機械学習(ML)モデルの分散トレーニングを特徴とする、協調学習パラダイムである。 MELでは、異なるデータセットで複数の学習タスクが共存する可能性がある。本稿では, エネルギー消費, 精度, 解複雑性のトレードオフを容易にする軽量なアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-09-02T07:37:10Z)
Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文参考訳（メタデータ） (2020-12-25T07:08:50Z)
Scalable Deep-Learning-Accelerated Topology Optimization for Additively Manufactured Materials [4.221095652322005]
トポロジー最適化(TO)は、新しい構造、材料、デバイスを設計するための、人気があり強力な計算手法である。これらの課題に対処するため、SDL-TOと呼ばれる汎用拡張型ディープラーニング(DL)ベースのToフレームワークを提案する。我々のフレームワークは、反復履歴データを学習し、与えられた設計と勾配のマッピングを同時にトレーニングすることで、TOを加速します。
論文参考訳（メタデータ） (2020-11-28T17:38:31Z)
Learning Centric Wireless Resource Allocation for Edge Computing: Algorithm and Experiment [15.577056429740951]
Edge Intelligenceは、センサー、通信、コンピューティングコンポーネントを統合し、さまざまな機械学習アプリケーションをサポートする、新興ネットワークアーキテクチャである。既存の方法は2つの重要な事実を無視している: 1) 異なるモデルがトレーニングデータに不均一な要求を持っている; 2) シミュレーション環境と実環境との間にはミスマッチがある。本稿では,複数のタスクの最悪の学習性能を最大化する学習中心の無線リソース割り当て方式を提案する。
論文参考訳（メタデータ） (2020-10-29T06:20:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。