論文の概要: PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU
- arxiv url: http://arxiv.org/abs/2312.12456v1
- Date: Sat, 16 Dec 2023 02:27:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-21 18:38:46.755861
- Title: PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU
- Title(参考訳): PowerInfer: コンシューマグレードGPUを使用した高速大規模言語モデル
- Authors: Yixin Song, Zeyu Mi, Haotong Xie, Haibo Chen
- Abstract要約: 本稿では,1つのコンシューマグレードGPUを備えたパーソナルコンピュータ(PC)上での高速大言語モデル(LLM)推論エンジンであるPowerInferを紹介する。
- 参考スコア(独自算出の注目度): 3.7414094253425296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces PowerInfer, a high-speed Large Language Model (LLM)
inference engine on a personal computer (PC) equipped with a single
consumer-grade GPU. The key underlying the design of PowerInfer is exploiting
the high locality inherent in LLM inference, characterized by a power-law
distribution in neuron activation. This distribution indicates that a small
subset of neurons, termed hot neurons, are consistently activated across
inputs, while the majority, cold neurons, vary based on specific inputs.
PowerInfer exploits such an insight to design a GPU-CPU hybrid inference
engine: hot-activated neurons are preloaded onto the GPU for fast access, while
cold-activated neurons are computed on the CPU, thus significantly reducing GPU
memory demands and CPU-GPU data transfers. PowerInfer further integrates
adaptive predictors and neuron-aware sparse operators, optimizing the
efficiency of neuron activation and computational sparsity. Evaluation shows
that PowerInfer attains an average token generation rate of 13.20 tokens/s,
with a peak of 29.08 tokens/s, across various LLMs (including OPT-175B) on a
single NVIDIA RTX 4090 GPU, only 18% lower than that achieved by a top-tier
server-grade A100 GPU. This significantly outperforms llama.cpp by up to 11.69x
while retaining model accuracy.
- Abstract(参考訳): 本稿では,1つのコンシューマグレードGPUを備えたパーソナルコンピュータ(PC)上での高速大言語モデル(LLM)推論エンジンであるPowerInferを紹介する。
powerinferの設計の根底にある鍵は、llm推論に固有の高い局所性を利用しており、ニューロンの活性化におけるパワーロー分布が特徴である。
この分布は、熱いニューロンと呼ばれるニューロンの小さなサブセットが入力間で一貫して活性化されていることを示しているが、大多数の冷いニューロンは特定の入力に基づいて異なる。
ホットアクティベートされたニューロンはGPUにプリロードされ、コールドアクティベートされたニューロンはCPU上で計算され、GPUメモリ要求とCPU-GPUデータ転送が大幅に削減される。
PowerInferはさらに適応予測器とニューロン認識スパース演算子を統合し、ニューロン活性化と計算空間の効率を最適化する。
評価によると、PowerInferは平均トークン生成レートが13.20トークン/秒に達し、ピークは29.08トークン/秒であり、1つのNVIDIA RTX 4090 GPU上の様々なLCM(OPT-175Bを含む)で、トップレベルのサーバグレードのA100 GPUよりもわずか18%低い。
これはモデルの精度を維持しつつ、最大で11.69倍のllama.cppを上回る。
関連論文リスト
- HeadInfer: Memory-Efficient LLM Inference by Head-wise Offloading [79.38548165722229]
HEADINFERはKVキャッシュをCPURAMにオフロードするが、GPU上のトランスフォーマー層のKVキャッシュを完全に保存する必要はない。
HEADINFERはメモリフットプリントを大幅に削減し,計算効率を向上することを示した。
論文 参考訳(メタデータ) (2025-02-18T06:26:05Z) - Memory-Efficient Training for Deep Speaker Embedding Learning in Speaker Verification [50.596077598766975]
資源制約のあるシナリオにおける深層話者埋め込み学習のためのメモリ効率のトレーニング戦略について検討する。
アクティベーションのために、中間アクティベーションを格納する必要がない2種類の可逆ニューラルネットワークを設計する。
状態に対して、元の32ビット浮動小数点値を動的ツリーベースの8ビットデータ型に置き換える動的量子化手法を導入する。
論文 参考訳(メタデータ) (2024-12-02T06:57:46Z) - Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - NeRF-XL: Scaling NeRFs with Multiple GPUs [72.75214892939411]
我々は、複数のGPUにまたがるニューラルラジアンス場(NeRF)を分散する原理的手法であるNeRF-XLを提案する。
パラメータ数を大きくして再構成品質を向上し,GPUの高速化を実現した。
我々は,25km2の都市部をカバーする258K画像を含む,これまでで最大規模のオープンソースデータセットMatrixCityを含む,さまざまなデータセットに対するNeRF-XLの有効性を実証した。
論文 参考訳(メタデータ) (2024-04-24T21:43:15Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A Study on the Intersection of GPU Utilization and CNN Inference [8.084016058894779]
我々は、畳み込みニューラルネットワーク(CNN)の推論時GPU利用を改善する余地があることを示す。
我々は、CNNの推論時GPU利用を改善する余地があり、GPU利用に関する知識は、利用自体をターゲットとしないアプリケーションでさえも恩恵を受ける可能性があることを論じる。
論文 参考訳(メタデータ) (2022-12-15T16:11:40Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - AdderNet and its Minimalist Hardware Design for Energy-Efficient
Artificial Intelligence [111.09105910265154]
アドラー畳み込みニューラルネットワーク(AdderNet)を用いた新しいミニマリストハードウェアアーキテクチャを提案する。
AdderNet全体の16%の高速化を実現している。
我々は、AdderNetが他の競争相手を追い越せると結論付けている。
論文 参考訳(メタデータ) (2021-01-25T11:31:52Z) - At-Scale Sparse Deep Neural Network Inference with Efficient GPU
Implementation [24.824295164938604]
本稿では,Sparse Deep Neural Network Challenge 2020の推論モデルに対するGPU性能の最適化とスケーリング結果について述べる。
スパースディープニューラルネットワーク(SpDNN)は、大規模なニューラルネットワークのメモリフットプリントを制御することを約束している。
本研究では,ReLU関数と融合したスパース行列乗算カーネルを提案する。
論文 参考訳(メタデータ) (2020-07-28T12:09:43Z) - A Simple Model for Portable and Fast Prediction of Execution Time and
Power Consumption of GPU Kernels [2.9853894456071077]
このモデルは、Parboil、Rodinia、Polybench-GPU、SHOCなどのベンチマークから189個の計算カーネルを使用してランダムなフォレストに基づいて構築されている。
クロスバリデーションを用いたモデル性能の評価では、中央値平均パーセンテージエラー(MAPE)は8.86-52.00%と1.84-2.94%で、それぞれ5つのGPUで電力予測を行う。
論文 参考訳(メタデータ) (2020-01-20T13:40:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。