論文の概要: Prima.cpp: Fast 30-70B LLM Inference on Heterogeneous and Low-Resource Home Clusters
- arxiv url: http://arxiv.org/abs/2504.08791v2
- Date: Fri, 26 Sep 2025 03:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.310344
- Title: Prima.cpp: Fast 30-70B LLM Inference on Heterogeneous and Low-Resource Home Clusters
- Title(参考訳): Prima.cpp: 異種および低リソースのホームクラスタ上での高速30-70B LLM推論
- Authors: Zonghang Li, Tao Li, Wenjiao Feng, Rongxing Xiao, Jianshu She, Hong Huang, Mohsen Guizani, Hongfang Yu, Qirong Ho, Wei Xiang, Steve Liu,
- Abstract要約: オンデバイス推論は、プライバシ、オフライン使用、即時応答を提供するが、コンシューマハードウェアは、大きな言語モデル(LLM)を低スループットと能力に制限する。
本稿では,CPU/GPUの混在,RAM/VRAMの不足,ディスクの遅い,Wi-Fiリンク,異種OSを備えた家電クラスタ上で30~70B LLMを動作させる分散オンデバイス推論システムprime.を提案する。
計算・通信とディスクI/Oの重なり合うようにパイプラインリング並列化(PRP)を導入し,mapベースのオフロードにおけるプレフェッチ・リリース競合に対処する。
- 参考スコア(独自算出の注目度): 43.52299612686755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: On-device inference offers privacy, offline use, and instant response, but consumer hardware restricts large language models (LLMs) to low throughput and capability. To overcome this challenge, we present prima.cpp, a distributed on-device inference system that runs 30-70B LLMs on consumer home clusters with mixed CPUs/GPUs, insufficient RAM/VRAM, slow disks, Wi-Fi links, and heterogeneous OSs. We introduce pipelined-ring parallelism (PRP) to overlap disk I/O with compute and communication, and address the prefetch-release conflict in mmap-based offloading. We further propose Halda, a heterogeneity-aware scheduler that co-optimizes per-device CPU/GPU workloads and device selection under RAM/VRAM constraints. On four consumer home devices, a 70B model reaches 674 ms/token TPOT with <6% memory pressure, and a 32B model with speculative decoding achieves 26 tokens/s. Compared with llama.cpp, exo, and dllama, our proposed prima.cpp achieves 5-17x lower TPOT, supports fine-grained model sizes from 8B to 70B, ensures broader cross-OS and quantization compatibility, and remains OOM-free, while also being Wi-Fi tolerant, privacy-preserving, and hardware-independent. The code is available at https://gitee.com/zonghang-li/prima.cpp.
- Abstract(参考訳): オンデバイス推論は、プライバシ、オフライン使用、即時応答を提供するが、コンシューマハードウェアは、大きな言語モデル(LLM)を低スループットと能力に制限する。
この課題を克服するため,コンシューマー向けホームクラスタ上で30-70B LLMを動作させ,CPU/GPU,RAM/VRAMの不足,ディスクの低速化,Wi-Fiリンク,異種OSで動作させる分散オンデバイス推論システムであるpria.cppを提案する。
計算・通信とディスクI/Oの重なり合うようにパイプラインリング並列化(PRP)を導入し,mapベースのオフロードにおけるプレフェッチ・リリース競合に対処する。
さらに、デバイス毎のCPU/GPUワークロードと、RAM/VRAM制約下でのデバイス選択を共最適化するヘテロジニティ対応スケジューラであるHaldaを提案する。
4つの消費者向けホームデバイスにおいて、70Bモデルは6%のメモリ圧力で674ms/token TPOTに達し、投機的復号化を伴う32Bモデルは26トークン/sを達成する。
llama.cpp、exo、dllamaと比較すると、提案したprima.cppは5-17倍低いTPOTを実現し、8Bから70Bまでのきめ細かいモデルサイズをサポートし、より広いクロスOSと量子化互換性を確保し、OOMフリーでありながらWi-Fi耐性、プライバシー保護、ハードウェア非依存である。
コードはhttps://gitee.com/zonghang-li/prima.cpp.comで入手できる。
関連論文リスト
- SpecMemo: Speculative Decoding is in Your Pocket [7.062887337934677]
投機的復号化は本質的に、いくつかの候補トークンを生成するために余分なメモリ割り当てを犠牲にすることに依存する。
より微細なレベルでメモリ割り当てをスマートに制御できるSpecMemoというデバイス対応推論エンジンを提案する。
SpecMemoのメモリ管理では、MT-Benchでの投機的復号化から全体のスループットの96%を維持しています。
論文 参考訳(メタデータ) (2025-05-16T22:12:29Z) - 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float [52.079202872069835]
大規模言語モデル(LLM)や拡散モデル(DM)といった大規模AIモデルは急速に成長している。
圧縮フレームワークであるDynamic-Length Float (DFloat11) を導入し, LLM と DM サイズを30%削減した。
論文 参考訳(メタデータ) (2025-04-15T22:38:38Z) - PIPO: Pipelined Offloading for Efficient Inference on Consumer Devices [13.786008100564185]
我々は、消費者デバイス上で効率的な推論を行うための、パイプラインオフロード(PIPO)と呼ばれる新しいフレームワークを提案する。
PIPOは、推論のための高効率なスケジューリングを実現するために、最適化されたデータ転送と計算を補完するきめ細かいオフロードパイプラインを設計する。
論文 参考訳(メタデータ) (2025-03-15T08:48:38Z) - Dovetail: A CPU/GPU Heterogeneous Speculative Decoding for LLM inference [20.68731158617374]
Dovetailは、GPUにドラフトモデルをデプロイしてドラフトトークンを生成し、ターゲットモデルをCPU上で並列検証可能にするアプローチである。
Dovetailは3GBのVRAMを使用してLLaMA2-Chat-7Bで毎秒5.86トークンの推論速度を実現しており、CPUのみの推論よりも約2.77倍改善されている。
論文 参考訳(メタデータ) (2024-12-25T15:45:18Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - LiVOS: Light Video Object Segmentation with Gated Linear Matching [116.58237547253935]
LiVOSはリニアアテンションによるリニアマッチングを利用する軽量メモリネットワークである。
長くて高解像度のビデオでは、STMベースのメソッドと53%のGPUメモリで一致し、32Gの消費者向けGPU上で4096pの推論をサポートする。
論文 参考訳(メタデータ) (2024-11-05T05:36:17Z) - TPI-LLM: Serving 70B-scale LLMs Efficiently on Low-resource Edge Devices [36.714057078457195]
本稿では,70Bスケールモデルに対する計算およびメモリ効率の高いテンソル並列推論システムであるTPI-LLMを提案する。
TPI-LLMは、ユーザのデバイスに機密データをローカルに保持し、スライディングウィンドウメモリスケジューラを導入する。
TPI-LLMは、Accelerateと比較して80%以上、タイム・ツー・ファースト・トークンのレイテンシが低いことを示した。
論文 参考訳(メタデータ) (2024-10-01T09:18:56Z) - Practical offloading for fine-tuning LLM on commodity GPU via learned sparse projectors [11.127604539303373]
微調整の大型言語モデル(LLM)は大きなメモリを必要とし、1つのGPUの容量を超えることが多い。
このメモリ課題の一般的な解決策は、計算とデータをGPUからCPUにオフロードすることだ。
本稿では,コモディティハードウェア上でのLLMの微調整を可能にするオフロードフレームワーク LSP-Offload を提案する。
論文 参考訳(メタデータ) (2024-06-14T16:59:11Z) - Pipette: Automatic Fine-grained Large Language Model Training Configurator for Real-World Clusters [5.190794062263327]
大規模言語モデル(LLM)の訓練は、膨大な計算能力とメモリ容量の要求のために困難であることが知られている。
本稿では,実世界のクラスタを対象としたLLM自動微粒化トレーニングであるPipetteを提案する。
論文 参考訳(メタデータ) (2024-05-28T11:59:44Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Towards Memory-Efficient Training for Extremely Large Output Spaces --
Learning with 500k Labels on a Single Commodity GPU [2.3224617218247134]
巨大な出力空間(数百万ラベルまで)の分類問題では、最後の層は膨大な量のメモリを必要とする。
スパース接続を使用することで、メモリ要求が大幅に削減されるが、モデルの性能が大幅に低下する可能性がある。
提案手法は,わずか4GBのGPU上で670,000ラベルのデータセットにスケール可能であることを示す。
論文 参考訳(メタデータ) (2023-06-06T14:44:52Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - A TinyML Platform for On-Device Continual Learning with Quantized Latent
Replays [66.62377866022221]
Latent Replay-based Continual Learning (CL)技術は、原則としてオンライン、サーバレスの適応を可能にする。
10コアのFP32対応並列超低消費電力プロセッサをベースとした,エンドツーエンドCLのためのHW/SWプラットフォームを提案する。
これらの手法を組み合わせることで,64MB未満のメモリを用いて連続学習を実現することができることを示す。
論文 参考訳(メタデータ) (2021-10-20T11:01:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。