論文の概要: Native LLM and MLLM Inference at Scale on Apple Silicon
- arxiv url: http://arxiv.org/abs/2601.19139v2
- Date: Thu, 29 Jan 2026 06:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 14:13:19.937948
- Title: Native LLM and MLLM Inference at Scale on Apple Silicon
- Title(参考訳): Apple Silicon のスケールでのネイティブ LLM と MLLM 推論
- Authors: Wayner Barrios,
- Abstract要約: MLX をネイティブに構築した Apple Silicon 上で,効率的な LLM と MLLM 推論のためのフレームワーク vllm-mlx を提案する。
テキストモデルでは、Qwen3-0.6BからNemotron-30Bまでの範囲で、ラマよりも21%から87%高いスループットを達成する。
マルチモーダルモデルでは,入力形式によらず,同一画像をコンテンツハッシュで識別することで,冗長な視覚符号化を不要とするコンテンツベースキャッシングを導入する。
- 参考スコア(独自算出の注目度): 0.8122270502556375
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growing adoption of Apple Silicon for machine learning development has created demand for efficient inference solutions that leverage its unique unified memory architecture. However, existing tools either lack native optimization (PyTorch MPS) or focus solely on text models, leaving multimodal workloads underserved. We present vllm-mlx, a framework for efficient LLM and MLLM inference on Apple Silicon built natively on MLX. For text models, we achieve 21\% to 87\% higher throughput than llama-cpp across models ranging from Qwen3-0.6B to Nemotron-30B, while providing continuous batching that scales to 4.3x aggregate throughput at 16 concurrent requests. For multimodal models, we introduce content-based prefix caching that eliminates redundant vision encoding by identifying identical images through content hashing, regardless of input format. Our evaluation on Apple M4 Max demonstrates throughput of up to 525 tokens per second on text models and 28x speedup on repeated image queries, reducing multimodal latency from 21.7 seconds to under 1 second. Video analysis with up to 64 frames achieves 24.7x cache speedup. We release our implementation as open source to support efficient inference on consumer Apple hardware.
- Abstract(参考訳): マシンラーニング開発におけるApple Siliconの採用の増加は、そのユニークな統一メモリアーキテクチャを活用する効率的な推論ソリューションへの需要を生み出している。
しかし、既存のツールはネイティブ最適化(PyTorch MPS)を欠いているか、テキストモデルのみに重点を置いており、マルチモーダルワークロードが不足している。
MLXをネイティブに構築したApple Silicon上で,効率的なLLMおよびMLLM推論のためのフレームワークであるvllm-mlxを提案する。
テキストモデルでは、Qwen3-0.6BからNemotron-30Bまでのモデルでラマ-cppよりも21~87.%高いスループットを実現し、同時に16の同時リクエストで4.3倍の集約スループットにスケールする継続的バッチ処理を提供する。
マルチモーダルモデルでは,入力形式によらず,同一画像をコンテンツハッシュで識別することで,冗長な視覚符号化を不要とするコンテンツベースのプレフィックスキャッシュを導入する。
Apple M4 Maxの評価では、テキストモデルでは最大525トークン/秒のスループット、繰り返しイメージクエリでは28倍のスピードアップを示し、マルチモーダルレイテンシを21.7秒から1秒以下に短縮しています。
64フレームまでの動画解析では、24.7倍のキャッシュ高速化を実現している。
我々は、消費者のAppleハードウェアの効率的な推論をサポートするために、オープンソースとして実装をリリースします。
関連論文リスト
- AndesVL Technical Report: An Efficient Mobile-side Multimodal Large Language Model [40.488271586857884]
AndesVLはQwen3のLLMと様々なビジュアルエンコーダに基づいて0.6Bから4Bのパラメータを持つモバイル側のMLLMのスイートである。
効率的なタスク適応とモデル圧縮を容易にするために,Quantization-Aware LoRA Fine-Tuningフレームワークとともに1+N LoRAアーキテクチャを導入する。
我々は、MediaTek Dimensity 9500チップにAndesVL-4Bをデプロイする際に、最大6.7倍のピーク復号率、最大30.9%のメモリ削減、1.8ビット/ウェイトを実現した。
論文 参考訳(メタデータ) (2025-10-13T15:04:38Z) - Production-Grade Local LLM Inference on Apple Silicon: A Comparative Study of MLX, MLC-LLM, Ollama, llama.cpp, and PyTorch MPS [0.08030359871216612]
我々は,Apple Silicon 上で 5 つの局所的大規模言語モデル (LLM) の体系的,実証的な評価を行う。
MLX, MLC-LLM, llama, Ollama, PyTorch MPSを試験した。
論文 参考訳(メタデータ) (2025-10-09T23:53:38Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - AdaReTaKe: Adaptive Redundancy Reduction to Perceive Longer for Video-language Understanding [55.320254859515714]
MLLM(Multimodal Large Language Models)は、ビデオ理解に革命をもたらしたが、長いビデオを処理する際の文脈長によって制限されている。
AdaReTaKeは,時間と層間の圧縮比を理論的保証とともに割り当てることで,視覚的冗長性を柔軟に低減する訓練自由手法である。
VideoMME、MLVU、LongVideoBench、LVBenchのデータセットの実験では、AdaReTaKeは既存の7Bモデルと72Bモデルでそれぞれ2.3%、そして2.8%を上回っている。
論文 参考訳(メタデータ) (2025-03-16T16:14:52Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Transformer-Lite: High-efficiency Deployment of Large Language Models on Mobile Phone GPUs [15.276687781165608]
大規模言語モデル(LLM)は、インテリジェントアシスタント、テキスト要約、翻訳、携帯電話でのマルチモダリティといったタスクに広く使われている。
デバイスGPU上でのLLMの高効率展開を容易にするため,我々は4つの最適化手法を提案する。
モバイル推論エンジンであるTransformer-LiteはQualcommおよびMTKプロセッサと互換性がある。
論文 参考訳(メタデータ) (2024-03-29T08:26:53Z) - MobileVLM : A Fast, Strong and Open Vision Language Assistant for Mobile
Devices [73.46317110474064]
MobileVLM (MobileVLM) は、モバイルデバイス上で動作する多モード視覚言語モデル(MMVLM)である。
これは、CLIP方式で事前訓練されたマルチモーダル視覚モデルである、スクラッチからトレーニングされた1.4Bと2.7Bのスケールの言語モデルで構成されている。
論文 参考訳(メタデータ) (2023-12-28T08:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。