論文の概要: HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators
- arxiv url: http://arxiv.org/abs/2501.14794v1
- Date: Sat, 11 Jan 2025 02:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-02 08:51:12.018028
- Title: HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators
- Title(参考訳): HeteroLLM: 異種AIアクセラレータによるモバイルSoCsプラットフォーム上での大規模言語モデル推論の高速化
- Authors: Le Chen, Dahu Feng, Erhu Feng, Rong Zhao, Yingrui Wang, Yubin Xia, Haibo Chen, Pinjie Xu,
- Abstract要約: HeteroLLMはモバイルデバイスで最速のLCM推論エンジンであり、層レベルとテンソルレベルのヘテロジニアス実行の両方をサポートする。
評価結果から,HeteroLLMは他のモバイル側LPM推論エンジンと比較して9.99と4.36の性能改善が達成された。
- 参考スコア(独自算出の注目度): 7.377592753635839
- License:
- Abstract: With the rapid advancement of artificial intelligence technologies such as ChatGPT, AI agents and video generation,contemporary mobile systems have begun integrating these AI capabilities on local devices to enhance privacy and reduce response latency. To meet the computational demands of AI tasks, current mobile SoCs are equipped with diverse AI accelerators, including GPUs and Neural Processing Units (NPUs). However, there has not been a comprehensive characterization of these heterogeneous processors, and existing designs typically only leverage a single AI accelerator for LLM inference, leading to suboptimal use of computational resources and memory bandwidth. In this paper, we first summarize key performance characteristics of mobile SoC, including heterogeneous processors, unified memory, synchronization, etc. Drawing on these observations, we propose different tensor partition strategies to fulfill the distinct requirements of the prefill and decoding phases. We further design a fast synchronization mechanism that leverages the unified memory address provided by mobile SoCs. By employing these techniques, we present HeteroLLM, the fastest LLM inference engine in mobile devices which supports both layer-level and tensor-level heterogeneous execution. Evaluation results show that HeteroLLM achieves 9.99 and 4.36 performance improvement over other mobile-side LLM inference engines: MLC and MNN.
- Abstract(参考訳): ChatGPTやAIエージェント、ビデオ生成といった人工知能技術の急速な進歩により、現代のモバイルシステムは、これらのAI機能をローカルデバイスに統合し、プライバシを高め、応答レイテンシを低減している。
AIタスクの計算要求を満たすため、現在のモバイルSoCには、GPUやNeural Processing Unit(NPU)など、さまざまなAIアクセラレータが備わっている。
しかし、これらの異種プロセッサの包括的特徴は存在せず、既存の設計ではLLM推論に1つのAIアクセラレータしか利用していないため、計算資源とメモリ帯域幅を最適に利用することができる。
本稿では、異種プロセッサ、統一メモリ、同期などを含むモバイルSoCの重要な性能特性を最初に要約する。
これらの観測に基づいて、プリフィルと復号相の異なる要件を満たすために、異なるテンソル分割戦略を提案する。
さらに,移動体SoCによって提供されるメモリアドレスを統一する高速同期機構を設計する。
これらの手法を用いることで,階層レベルとテンソルレベルのヘテロジニアス実行をサポートするモバイル機器で最速のLLM推論エンジンであるHeteroLLMを提案する。
評価の結果,HeteroLLMは,他のモバイル側LCM推論エンジン(MLCとMNN)よりも9.99と4.36の性能向上を実現していることがわかった。
関連論文リスト
- Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - Memory Is All You Need: An Overview of Compute-in-Memory Architectures for Accelerating Large Language Model Inference [2.9302211589186244]
大規模言語モデル(LLM)は自然言語処理を変換し、機械が人間のようなテキストを生成し、意味のある会話を行うことを可能にする。
計算と記憶能力の発達はムーアの法則の廃止によってさらに悪化している。
コンピュート・イン・メモリ(CIM)技術は、メモリ内でアナログ計算を直接実行することにより、AI推論を加速するための有望なソリューションを提供する。
論文 参考訳(メタデータ) (2024-06-12T16:57:58Z) - Deep Learning Inference on Heterogeneous Mobile Processors: Potentials and Pitfalls [22.49750818224266]
リアルタイムなインテリジェントなアプリケーションのために、リソース制約のあるモバイルデバイスに計算集約型ディープラーニング(DL)モデルをデプロイする需要が高まっている。
モバイルデバイスは、異種プロセッサ間の並列実行を通じてDL推論を加速する可能性を秘めている。
本稿では、異種モバイルプロセッサ上での並列DL推論に関連する機能と課題を評価するための総合的研究について述べる。
論文 参考訳(メタデータ) (2024-05-03T04:47:23Z) - Efficient and Economic Large Language Model Inference with Attention Offloading [11.698376311689456]
トランスフォーマーベースの大規模言語モデル(LLM)は、生成タスクにおいて優れたパフォーマンスを示すが、現実のサービスにおいて大きな課題をもたらす。
このミスマッチは LLM の自己回帰的な性質から生じ、生成フェーズはリソース要求の異なる演算子から構成される。
LLMの効率性と費用対効果を高めるために,注意オフロードの概念を導入する。
論文 参考訳(メタデータ) (2024-05-03T02:15:15Z) - MELTing point: Mobile Evaluation of Language Transformers [8.238355633015068]
大規模言語モデル(LLM)のモバイル実行の現状について検討する。
我々は,デバイス上でのLLMのヘッドレス実行とベンチマークをサポートする,独自の自動化インフラストラクチャMELTを開発した。
我々は、一般的な命令の微調整 LLM を評価し、それぞれのフレームワークを用いてエンドツーエンドおよび粒度の性能を計測する。
論文 参考訳(メタデータ) (2024-03-19T15:51:21Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - How to Reach Real-Time AI on Consumer Devices? Solutions for
Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。
このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。
クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文 参考訳(メタデータ) (2021-06-21T11:23:12Z) - Reconfigurable Intelligent Surface Assisted Mobile Edge Computing with
Heterogeneous Learning Tasks [53.1636151439562]
モバイルエッジコンピューティング(MEC)は、AIアプリケーションに自然なプラットフォームを提供します。
再構成可能なインテリジェントサーフェス(RIS)の助けを借りて、MECで機械学習タスクを実行するインフラストラクチャを提示します。
具体的には,モバイルユーザの送信パワー,基地局のビームフォーミングベクトル,risの位相シフト行列を共同で最適化することにより,参加ユーザの学習誤差を最小化する。
論文 参考訳(メタデータ) (2020-12-25T07:08:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。