論文の概要: TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices
- arxiv url: http://arxiv.org/abs/2410.00531v1
- Date: Tue, 1 Oct 2024 09:18:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:57:03.353843
- Title: TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices
- Title(参考訳): TPI-LLM:低リソースエッジデバイス上で70BスケールのLLMを実現する
- Authors: Zonghang Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu,
- Abstract要約: 本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
- 参考スコア(独自算出の注目度): 36.714057078457195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large model inference is shifting from cloud to edge due to concerns about the privacy of user interaction data. However, edge devices often struggle with limited computing power, memory, and bandwidth, requiring collaboration across multiple devices to run and speed up LLM inference. Pipeline parallelism, the mainstream solution, is inefficient for single-user scenarios, while tensor parallelism struggles with frequent communications. In this paper, we argue that tensor parallelism can be more effective than pipeline on low-resource devices, and present a compute- and memory-efficient tensor parallel inference system, named TPI-LLM, to serve 70B-scale models. TPI-LLM keeps sensitive raw data local in the users' devices and introduces a sliding window memory scheduler to dynamically manage layer weights during inference, with disk I/O latency overlapped with the computation and communication. This allows larger models to run smoothly on memory-limited devices. We analyze the communication bottleneck and find that link latency, not bandwidth, emerges as the main issue, so a star-based allreduce algorithm is implemented. Through extensive experiments on both emulated and real testbeds, TPI-LLM demonstrated over 80% less time-to-first-token and token latency compared to Accelerate, and over 90% compared to Transformers and Galaxy, while cutting the peak memory footprint of Llama 2-70B by 90%, requiring only 3.1 GB of memory for 70B-scale models.
- Abstract(参考訳): ユーザインタラクションデータのプライバシに関する懸念から、大規模なモデル推論がクラウドからエッジに移行している。
しかし、エッジデバイスは計算能力、メモリ、帯域幅の制限に悩まされ、LLM推論の実行と高速化のために複数のデバイスをまたいで協調する必要がある。
パイプライン並列性(Pipeline parallelism)は、単一ユーザシナリオでは非効率であり、テンソル並列性(tensor parallelism)は頻繁な通信に苦労する。
本稿では,テンソル並列性は低リソースデバイス上でのパイプラインよりも有効であり,TPI-LLMと呼ばれる計算およびメモリ効率の高いテンソル並列推論システムを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、推論中に層重みを動的に管理するスライディングウィンドウメモリスケジューラを導入し、ディスクI/Oレイテンシと計算と通信の重なり合わせている。
これにより、より大きなモデルはメモリ制限されたデバイス上でスムーズに動作する。
通信ボトルネックを解析し、帯域幅ではなくリンク遅延が主問題として現れるので、スターベースアレーダアルゴリズムが実装される。
TPI-LLMは、エミュレートされたテストベッドと実際のテストベッドの両方での広範な実験を通じて、Accelerateと比較して80%以上、TransformerやGalaxyよりも90%以上、Llama 2-70Bのピークメモリフットプリントを90%削減し、70Bスケールのモデルではわずか3.1GBのメモリしか必要としなかった。
関連論文リスト
- Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - HiRE: High Recall Approximate Top-$k$ Estimation for Efficient LLM
Inference [68.59839755875252]
HiREは2つの新しいコンポーネントから構成される: (i) (i) (i) (i) (i) (i) (i) (i) (i) (i) (ii) DA-TOP-$k$: 効率的なマルチデバイス近似トップ-k$演算子) (i) (i) (i) (i) (i) (i) (i) DA-TOP-$k$演算子) 。
我々は、10億のパラメータモデルにおいて、HiREがソフトマックスとフィードフォワード層の両方に適用され、ほぼ一致した事前学習と下流の精度を実現し、1台のTPUv5eデバイスで1.47Times$の推論遅延を高速化することを示した。
論文 参考訳(メタデータ) (2024-02-14T18:04:36Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Efficient NLP Inference at the Edge via Elastic Pipelining [0.42970700836450487]
WRXは2つの新しい手法によってレイテンシ/メモリの緊張を緩和する。
We build WRX and evaluation that on a range of NLP tasks, under a practical range of target latencies, on both CPU and GPU。
論文 参考訳(メタデータ) (2022-07-11T17:15:57Z) - GEMEL: Model Merging for Memory-Efficient, Real-Time Video Analytics at
the Edge [10.276140547573437]
エッジビジョンモデル間のアーキテクチャ的類似性を利用した新しいメモリ管理手法であるモデルマージを提案する。
多様なワークロードに対する実験により、GEMELはメモリ使用量を最大60.7%削減し、時間/空間の共有のみと比較して、全体的な精度を8~39%向上することが明らかになった。
論文 参考訳(メタデータ) (2022-01-19T16:45:04Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。