論文の概要: Scaling On-Device GPU Inference for Large Generative Models
- arxiv url: http://arxiv.org/abs/2505.00232v1
- Date: Thu, 01 May 2025 00:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:55.193628
- Title: Scaling On-Device GPU Inference for Large Generative Models
- Title(参考訳): 大規模生成モデルのためのオンデバイスGPU推論のスケーリング
- Authors: Jiuqiang Tang, Raman Sarokin, Ekaterina Ignasheva, Grant Jensen, Lin Chen, Juhyun Lee, Andrei Kulik, Matthias Grundmann,
- Abstract要約: ML Driftは、最先端のGPUアクセラレーション推論エンジンの機能を拡張する最適化されたフレームワークである。
当社のGPU加速型ML/AI推論エンジンは,既存のオープンソースGPU推論エンジンと比較して,桁違いの性能向上を実現している。
- 参考スコア(独自算出の注目度): 5.938112995772544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Driven by the advancements in generative AI, large machine learning models have revolutionized domains such as image processing, audio synthesis, and speech recognition. While server-based deployments remain the locus of peak performance, the imperative for on-device inference, necessitated by privacy and efficiency considerations, persists. Recognizing GPUs as the on-device ML accelerator with the widest reach, we present ML Drift--an optimized framework that extends the capabilities of state-of-the-art GPU-accelerated inference engines. ML Drift enables on-device execution of generative AI workloads which contain 10 to 100x more parameters than existing on-device generative AI models. ML Drift addresses intricate engineering challenges associated with cross-GPU API development, and ensures broad compatibility across mobile and desktop/laptop platforms, thereby facilitating the deployment of significantly more complex models on resource-constrained devices. Our GPU-accelerated ML/AI inference engine achieves an order-of-magnitude performance improvement relative to existing open-source GPU inference engines.
- Abstract(参考訳): 生成AIの進歩によって、大規模な機械学習モデルは、画像処理、音声合成、音声認識といった領域に革命をもたらした。
サーバベースのデプロイメントはパフォーマンスのピーク点であり続けているが、プライバシと効率の考慮によって必要となるデバイス上の推論の必須事項は継続する。
デバイス上でのMLアクセラレーションとしてGPUを認識し,最先端のGPUアクセラレーションエンジンの機能を拡張する,ML Drift(ML Drift)を最適化したフレームワークとして提示する。
ML Driftは、既存のデバイス上の生成AIモデルよりも10倍から100倍多いパラメータを含む、生成AIワークロードのデバイス上での実行を可能にする。
ML Driftは、クロスプラットフォームAPI開発に関連する複雑なエンジニアリング上の課題に対処し、モバイルとデスクトップ/ラップトッププラットフォーム間の広範な互換性を保証することにより、リソース制約のあるデバイスへの、はるかに複雑なモデルのデプロイを容易にする。
当社のGPU加速型ML/AI推論エンジンは,既存のオープンソースGPU推論エンジンと比較して,桁違いの性能向上を実現している。
関連論文リスト
- MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。
システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。
多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文 参考訳(メタデータ) (2025-04-12T21:26:56Z) - HeteroLLM: Accelerating Large Language Model Inference on Mobile SoCs platform with Heterogeneous AI Accelerators [7.377592753635839]
HeteroLLMはモバイルデバイスで最速のLCM推論エンジンであり、層レベルとテンソルレベルのヘテロジニアス実行の両方をサポートする。
評価結果から,HeteroLLMは他のモバイル側LPM推論エンジンと比較して9.99と4.36の性能改善が達成された。
論文 参考訳(メタデータ) (2025-01-11T02:42:02Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - FIRE-3DV: Framework-Independent Rendering Engine for 3D Graphics using Vulkan [4.226502078427161]
本稿では,最新のVulkanグラフィックスAPIをサポートする,パフォーマンスを重視した軽量レンダリングエンジンを提案する。
我々のエンジンは、動的シミュレーションフレームワークであるAMBF(Asynchronous Multi-Body Framework)のレガシーレンダリングパイプラインの近代化に使用されている。
実験によると、エンジンは2ミリ秒以内のGPU計算時間を維持しながら、700万以上の三角形でシミュレーションされたシーンをレンダリングできる。
論文 参考訳(メタデータ) (2024-10-07T14:50:19Z) - Mondrian: On-Device High-Performance Video Analytics with Compressive
Packed Inference [7.624476059109304]
Mondrianは、高解像度ビデオストリーム上で高性能なオブジェクト検出を可能にするエッジシステムである。
我々は,1ピクセルあたりの処理コストを最小限に抑えるために,新しい圧縮パッケージ推論を考案した。
論文 参考訳(メタデータ) (2024-03-12T12:35:12Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - Random resistive memory-based deep extreme point learning machine for
unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。
我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文 参考訳(メタデータ) (2023-12-14T09:46:16Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Multi-model Machine Learning Inference Serving with GPU Spatial
Partitioning [7.05946599544139]
高スループット機械学習(ML)推論サーバは、オンラインサービスアプリケーションには不可欠である。
これらのサーバは、一貫したサービスレベルの目的(SLO)をサポートするために、各リクエストに対してバウンドレイテンシを提供しなければならない。
本稿では,マルチモデルML推論サーバのための新しいML推論スケジューリングフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T04:46:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。