論文の概要: Cloud to Edge: Benchmarking LLM Inference On Hardware-Accelerated Single-Board Computers
- arxiv url: http://arxiv.org/abs/2604.24785v1
- Date: Fri, 24 Apr 2026 14:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.490867
- Title: Cloud to Edge: Benchmarking LLM Inference On Hardware-Accelerated Single-Board Computers
- Title(参考訳): Cloud to Edge: ハードウェアアクセラレーションによるシングルボードコンピュータ上でのLCM推論のベンチマーク
- Authors: Harri Renney, Fouad Trad, Michael Mattarock, Zena Wood,
- Abstract要約: 大規模言語モデル(LLM)は、小さなパラメータスケールでますます能力を高めつつある。
既存のLLM固有のエッジベンチマークの取り組みは、CPUのみの推論に依存している。
本稿では,推論性能とハードウェア効率を協調的に評価する多次元ベンチマーク手法を提案する。
- 参考スコア(独自算出の注目度): 0.5249805590164902
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are becoming increasingly capable at small parameter scales. At the same time, conventional cloud-centric deployment introduces challenges around data privacy, latency, and cost that are acute in operational technology and defence environments. Advances in model distillation, quantisation, and affordable edge accelerators now make local LLM inference on single-board computers feasible, but the high dimensionality of the configuration space makes identifying optimal deployments difficult without structured evaluation. Existing LLM-specific edge benchmarking efforts rely on CPU-only inference, poor coverage of genuine single-board computers, and generic evaluation tasks that lack multi-dimensional assessment of hardware effectiveness. This paper proposes a multi-dimensional benchmarking methodology that jointly evaluates inference performance and hardware efficiency across four IoT-suitable edge platform configurations testing single-board computers with the latest available hardware accelerators. Our results reveal the benefits of using hardware accelerators such as NPUs and GPUs, along with multi-dimensional evaluations quantifying the trade-offs between power efficiency, physical device size and token throughput; offering practical guidance for deploying generative AI in privacy-sensitive and connectivity-limited environments such as unmanned vehicles and portable, ruggedised operations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、小さなパラメータスケールでますます能力を高めつつある。
同時に、従来のクラウド中心のデプロイメントでは、運用テクノロジや防衛環境において急激なデータプライバシ、レイテンシ、コストに関する課題が導入されている。
モデル蒸留、量子化、安価なエッジ加速器の進歩により、シングルボードコンピュータ上でのローカルLSM推論が可能になったが、構成空間の高次元性は、構造化された評価なしに最適な配置を特定するのを困難にしている。
既存のLLM固有のエッジベンチマークの取り組みは、CPUのみの推論、本物のシングルボードコンピュータのカバー不足、そしてハードウェアの有効性の多次元評価に欠ける一般的な評価タスクに依存している。
本稿では,最新のハードウェアアクセラレータを用いたシングルボードコンピュータのテストを行う4つのIoT対応エッジプラットフォーム構成において,推論性能とハードウェア効率を協調的に評価する多次元ベンチマーク手法を提案する。
この結果から,NPUやGPUなどのハードウェアアクセラレータと,電力効率,物理デバイスサイズ,トークンスループットのトレードオフを定量的に評価する多次元評価のメリットが明らかになった。
関連論文リスト
- Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - Intra-DP: A High Performance Collaborative Inference System for Mobile Edge Computing [67.98609858326951]
Intra-DPはモバイルデバイス上でのディープニューラルネットワーク(DNN)に最適化された高性能な協調推論システムである。
推論毎のレイテンシを最大50%削減し、最先端のベースラインと比較してエネルギー消費量を最大75%削減する。
評価の結果,DP内の遅延は,最先端のベースラインと比較して最大50%,エネルギー消費は最大75%減少することがわかった。
論文 参考訳(メタデータ) (2025-07-08T09:50:57Z) - Towards Edge-Based Idle State Detection in Construction Machinery Using Surveillance Cameras [0.0]
未使用の建設機械は、運用コストとプロジェクト遅延を増大させる。
本稿では, アイドル機械検出のためのエッジIMIフレームワークを提案する。
提案手法は,オブジェクト検出,トラッキング,アイドル状態同定という3つのコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-06-01T08:43:33Z) - Benchmarking Energy and Latency in TinyML: A Novel Method for Resource-Constrained AI [0.0]
この研究は、エネルギーと遅延の測定を統合する代替のベンチマーク手法を導入する。
設定を評価するために、ニューラルネットワークを実行するためのNPUを含むSTM32N6 MCUをテストした。
その結果,コア電圧とクロック周波数の低減により,前処理と後処理の効率が向上することが示唆された。
論文 参考訳(メタデータ) (2025-05-21T15:12:14Z) - Cognitive Edge Computing: A Comprehensive Survey on Optimizing Large Models and AI Agents for Pervasive Deployment [12.921833067052928]
本稿では、ネットワークエッジのリソース制約されたデバイス上で、推論可能な大規模言語モデル(LLM)と自律AIエージェントをデプロイするための実用的かつ方法論的な経路として認知エッジコンピューティングを調査する。
本稿では,メモリ/計算予算の厳密化による多段階推論の維持を目的とした,統合された認知保存フレームワークを提案する。
我々は,効率的なトランスフォーマー設計,マルチモーダル統合,ハードウェア対応コンパイル,プライバシ保護学習,エージェントツール利用の進歩を合成し,それらをエッジ固有の操作エンベロープにマップする。
論文 参考訳(メタデータ) (2025-01-04T06:17:48Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。