論文の概要: Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS
- arxiv url: http://arxiv.org/abs/2511.05502v1
- Date: Thu, 09 Oct 2025 23:53:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:30.991822
- Title: Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS
- Title(参考訳): Apple Siliconにおける生産-グレード局所LCM推論:MLX, MLC-LLM, Ollama, llama.cpp, PyTorch MPSの比較検討
- Authors: Varun Rajesh, Om Jodhpurkar, Pooja Anbuselvan, Mantinder Singh, Ashok Jallepali, Shantanu Godbole, Pradeep Kumar Sharma, Hritvik Shrivastava,
- Abstract要約: 我々は,Apple Silicon 上で 5 つの局所的大規模言語モデル (LLM) の体系的,実証的な評価を行う。
MLX, MLC-LLM, llama, Ollama, PyTorch MPSを試験した。
- 参考スコア(独自算出の注目度): 0.08030359871216612
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a systematic, empirical evaluation of five local large language model (LLM) runtimes on Apple Silicon: MLX, MLC-LLM, llama.cpp, Ollama, and PyTorch MPS. Experiments were conducted on a Mac Studio equipped with an M2 Ultra processor and 192 GB of unified memory. Using the Qwen-2.5 model family across prompts ranging from a few hundred to 100,000 tokens, we measure time-to-first-token (TTFT), steady-state throughput, latency percentiles, long-context behavior (key-value and prompt caching), quantization support, streaming performance, batching and concurrency behavior, and deployment complexity. Under our settings, MLX achieves the highest sustained generation throughput, while MLC-LLM delivers consistently lower TTFT for moderate prompt sizes and offers stronger out-of-the-box inference features. llama.cpp is highly efficient for lightweight single-stream use, Ollama emphasizes developer ergonomics but lags in throughput and TTFT, and PyTorch MPS remains limited by memory constraints on large models and long contexts. All frameworks execute fully on-device with no telemetry, ensuring strong privacy guarantees. We release scripts, logs, and plots to reproduce all results. Our analysis clarifies the design trade-offs in Apple-centric LLM deployments and provides evidence-based recommendations for interactive and long-context processing. Although Apple Silicon inference frameworks still trail NVIDIA GPU-based systems such as vLLM in absolute performance, they are rapidly maturing into viable, production-grade solutions for private, on-device LLM inference.
- Abstract(参考訳): Apple Silicon上では,MLX,MLC-LLM,llama.cpp,Ollama,PyTorch MPSの5つのローカル言語モデル(LLM)ランタイムの体系的,実証的な評価を行う。
M2 Ultraプロセッサと192GBのメモリを搭載したMac Studioで実験が行われた。
Qwen-2.5モデルファミリを、数百から10000のトークンのプロンプトにわたって使用し、TTFT(Time-to-first-token)、定常スループット、レイテンシパーセンタイル、長期コンテキスト動作(キー値とプロンプトキャッシュ)、量子化サポート、ストリーミングパフォーマンス、バッチ処理と並行処理の動作、デプロイメントの複雑さを測定します。
我々の設定では、MLXは最高の持続的生成スループットを達成し、MLC-LLMは適度な速さでTTFTを一貫して低くし、より強力なアウト・オブ・ザ・ボックス推論機能を提供する。
llama.cppは軽量なシングルストリームでの使用に非常に効率的であり、Ollamaは開発者エルゴノミクスを強調し、スループットとTTFTの遅延を強調し、PyTorch MPSは大きなモデルと長いコンテキストのメモリ制限によって制限されている。
すべてのフレームワークは、テレメトリなしでデバイス上で完全に実行し、強力なプライバシ保証を保証する。
すべての結果を再現するためのスクリプト、ログ、プロットをリリースします。
我々の分析は、Apple中心のLLMデプロイメントにおける設計トレードオフを明らかにし、インタラクティブで長期のコンテキスト処理のためのエビデンスベースのレコメンデーションを提供する。
Appleのシリコン推論フレームワークは依然として、vLLMのようなNVIDIA GPUベースのシステムを絶対的なパフォーマンスで追っているが、プライベートなオンデバイスLSM推論のための実行可能なプロダクショングレードのソリューションに急速に成熟している。
関連論文リスト
- lm-Meter: Unveiling Runtime Inference Latency for On-Device Language Models [7.524517279167586]
大きな言語モデル(LLM)は、日々のアプリケーションにますます統合されています。
モバイルおよびエッジデバイス(オンデバイスLDM)でLLMをローカルに実行することは、プライバシー、信頼性、通信コストの削減を約束する。
オンデバイスLSM推論に適した,最初の軽量オンライン遅延プロファイラであるlm-Meterを提案する。
論文 参考訳(メタデータ) (2025-10-07T17:05:30Z) - Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - Towards Building Private LLMs: Exploring Multi-Node Expert Parallelism on Apple Silicon for Mixture-of-Experts Large Language Model [5.395171082357636]
大規模言語モデル(LLM)は、OpenAIのChatGPT、MetaのLlama、DatabricksのDBRXといった進歩とともに、人工知能(AI)に革命をもたらした。
本稿では,個人サービスや小グループサービス用のLLMシステムを構築する際に発生するコストとスケーラビリティの課題について論じる。
AppleのM2 Ultraチップを搭載したMac Studioクラスタは、事前訓練されたDBRXモデルをホストし、高速化するためのコスト効率の高いソリューションとして確立されている。
論文 参考訳(メタデータ) (2025-06-30T09:04:25Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Fine-tuning LLaMA 2 interference: a comparative study of language implementations for optimal efficiency [0.0]
PyTorch、Python、Mojo、C++、Javaなど、さまざまなプログラミング言語やフレームワークを評価します。
Apple Silicon上での大規模言語モデル(LLM)推論用に設計された新しいフレームワークであるMojo SDKについて検討する。
Apple M1 Max上で実施した実験では,Mojo SDKの競合性能,使いやすさ,Pythonとのシームレスな互換性が実証された。
論文 参考訳(メタデータ) (2025-01-30T19:36:33Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - L2MAC: Large Language Model Automatic Computer for Extensive Code Generation [52.81694565226513]
トランスフォーマーベースの大規模言語モデル(LLM)は、基盤となるトランスフォーマーアーキテクチャの固定コンテキストウィンドウによって制約される。
本稿では,L2MACを提案する。L2MACは,LLMをベースとした汎用型自動計算機(von Neumann Architecture)フレームワークで,長期的かつ一貫した出力生成を実現する。
論文 参考訳(メタデータ) (2023-10-02T16:55:19Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。