論文の概要: An Evaluation of LLMs Inference on Popular Single-board Computers
- arxiv url: http://arxiv.org/abs/2511.07425v1
- Date: Mon, 20 Oct 2025 01:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.043305
- Title: An Evaluation of LLMs Inference on Popular Single-board Computers
- Title(参考訳): 人気シングルボードコンピュータにおけるLLM推論の評価
- Authors: Tung, Nguyen, Tuyen Nguyen,
- Abstract要約: シングルボードコンピュータ(SBC)は、ローカライズされたプライバシ保護推論のための有望なプラットフォームを提供する。
我々は、Raspberry Pi 4、Raspberry Pi 5、Orange Pi 5 Proの3つのSBCで25の量子化されたオープンソースの大言語モデル(LLM)推論ランタイムのパフォーマンスをベンチマークした。
LlamafileはOllamaよりも最大4倍高いスループットと30-40%低い消費電力を実現し,SBCは1.5Bパラメータまでモデルを確実にサポートできることを示した。
- 参考スコア(独自算出の注目度): 0.7200545295680779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The growing demand for on-device large language model (LLM) inference is driving interest in deploying lightweight, cost-effective AI solutions on edge hardware. Single-board computers (SBCs) such as the Raspberry Pi and Orange Pi offer a promising platform for localized, privacy-preserving inference-but remain underexplored in the context of LLM workloads. In this work, we benchmark the performance of 25 quantized open-source LLMs across three SBCs-Raspberry Pi 4, Raspberry Pi 5, and Orange Pi 5 Pro-using two inference runtimes: Ollama and Llamafile. We evaluate generation throughput, memory usage, and power consumption under varying CPU configurations, using multiple prompt types to simulate realistic workloads. Our results show that SBCs can reliably support models up to 1.5B parameters, with Llamafile achieving up to 4x higher throughput and 30-40% lower power usage than Ollama. We identify architecture-specific bottlenecks, highlight runtime-level trade-offs, and provide practical deployment recommendations. This study offers the first broad evaluation of LLM inference on SBCs, bridging the gap between high-performance language models and affordable edge computing.
- Abstract(参考訳): デバイス上での大規模言語モデル(LLM)推論に対する需要が高まり、エッジハードウェアに軽量で費用対効果の高いAIソリューションをデプロイすることへの関心が高まっている。
Raspberry PiやOrange Piのようなシングルボードコンピュータ(SBC)は、ローカライズされたプライバシ保護推論のための有望なプラットフォームを提供するが、LLMワークロードのコンテキストでは未検討のままである。
本研究では,3つのSBC-Raspberry Pi 4,Raspberry Pi 5,Orange Pi 5 Proで,OllamaとLlamafileという2つの推論ランタイムを使用して,25の量子化されたオープンソースLLMのパフォーマンスをベンチマークする。
現実的なワークロードをシミュレートするために,複数のプロンプト型を用いて,CPU構成の異なる生成スループット,メモリ使用量,消費電力を評価した。
LlamafileはOllamaよりも最大4倍高いスループットと30-40%低い消費電力を実現し,SBCは1.5Bパラメータまでモデルを確実にサポートできることを示した。
アーキテクチャ固有のボトルネックを特定し、ランタイムレベルのトレードオフを強調し、実践的なデプロイメントレコメンデーションを提供します。
本研究では,高性能言語モデルと手頃なエッジコンピューティングのギャップを埋めて,SBCに対するLLM推論の広範な評価を行う。
関連論文リスト
- Pushing the Envelope of LLM Inference on AI-PC [45.081663877447816]
ウルトラロービットモデル(1/1.58/2-bit)は、同じモデルサイズを用いて、その完全精度のモデルのパープレキシティとエンドタスクのパフォーマンスとを一致させる。
最先端の推論ランタイム(例えばbitnet)の計算効率は未調査のままである。
まず1ビットと2ビットのマイクロカーネルを設計・実装し,計算効率の最大化を実現した。
我々は、現在のSOTAランタイムビットネットよりも優れた2ビットモデルを用いて、エンドツーエンドの推論結果を示す。
論文 参考訳(メタデータ) (2025-08-08T23:33:38Z) - MoE-Lightning: High-Throughput MoE Inference on Memory-constrained GPUs [55.95879347182669]
MoEアーキテクチャは、推論コストの比例的な増加なしにモデルキャパシティを向上できることで有名である。
MoE-LightningはCPU-GPU-I/OパイプラインスケジュールであるCGOPipeを導入し、ページ重み付けにより高いリソース利用を実現する。
MoE-Lightningは、単一のT4 GPU(16GB)上でMixtral 8x7Bの最先端オフロード可能なLLM推論システムよりも最大10.3倍高いスループットを実現することができる
論文 参考訳(メタデータ) (2024-11-18T01:06:12Z) - MARLIN: Mixed-Precision Auto-Regressive Parallel Inference on Large Language Models [58.3342517278868]
本稿では,Mixed-precision AutoRegressive LINearカーネルの設計について述べる。
バッチサイズは16-32までサポートでき、量子化のスピードアップが最大 (4times$) になる。
MarLINは非同期メモリアクセス、複雑なタスクスケジューリング、パイプライン化といったテクニックを組み合わせてこれを実現している。
論文 参考訳(メタデータ) (2024-08-21T16:10:41Z) - Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。
我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。
2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-08T06:30:58Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Efficient LLM Inference on CPUs [8.802223672775844]
大規模言語モデル(LLM)は、幅広いタスクにおいて、顕著なパフォーマンスと大きなポテンシャルを示してきた。
これらのモデルのデプロイは、天文学的なモデルパラメータの量のために困難でした。
LLMのデプロイをより効率的にするための効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-01T13:08:50Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。