論文の概要: Generative AI on the Edge: Architecture and Performance Evaluation
- arxiv url: http://arxiv.org/abs/2411.17712v1
- Date: Mon, 18 Nov 2024 16:09:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-01 04:14:32.921718
- Title: Generative AI on the Edge: Architecture and Performance Evaluation
- Title(参考訳): エッジ上のジェネレーティブAI:アーキテクチャとパフォーマンス評価
- Authors: Zeinab Nezami, Maryam Hafeez, Karim Djemame, Syed Ali Raza Zaidi,
- Abstract要約: 6GのAIネイティブビジョンであるアドバンストインテリジェンスをネットワークに組み込むには、エッジデバイス上のジェネレーティブAI(GenAI)モデルを体系的に評価する必要がある。
本研究では,ORANのエッジテストベッドとして機能する1つのコモディティRaspberry Pi上でのLLM(Large Language Models)推論の計算要求について検討する。
- 参考スコア(独自算出の注目度): 0.3999851878220877
- License:
- Abstract: 6G's AI native vision of embedding advance intelligence in the network while bringing it closer to the user requires a systematic evaluation of Generative AI (GenAI) models on edge devices. Rapidly emerging solutions based on Open RAN (ORAN) and Network-in-a-Box strongly advocate the use of low-cost, off-the-shelf components for simpler and efficient deployment, e.g., in provisioning rural connectivity. In this context, conceptual architecture, hardware testbeds and precise performance quantification of Large Language Models (LLMs) on off-the-shelf edge devices remains largely unexplored. This research investigates computationally demanding LLM inference on a single commodity Raspberry Pi serving as an edge testbed for ORAN. We investigate various LLMs, including small, medium and large models, on a Raspberry Pi 5 Cluster using a lightweight Kubernetes distribution (K3s) with modular prompting implementation. We study its feasibility and limitations by analyzing throughput, latency, accuracy and efficiency. Our findings indicate that CPU-only deployment of lightweight models, such as Yi, Phi, and Llama3, can effectively support edge applications, achieving a generation throughput of 5 to 12 tokens per second with less than 50\% CPU and RAM usage. We conclude that GenAI on the edge offers localized inference in remote or bandwidth-constrained environments in 6G networks without reliance on cloud infrastructure.
- Abstract(参考訳): 6GのAIネイティブビジョンは、ネットワークに先進的インテリジェンスを組み込むと同時に、ユーザに近づけるには、エッジデバイス上のジェネレーティブAI(GenAI)モデルを体系的に評価する必要がある。
Open RAN (ORAN) と Network-in-a-Box をベースとした急激なソリューションは、ローコストでオフザシェルフなコンポーネントをよりシンプルで効率的なデプロイメント、例えば農村部接続のプロビジョニングに使用することを強く主張している。
この文脈では、概念アーキテクチャ、ハードウェアテストベッド、および既製のエッジデバイス上でのLarge Language Models(LLM)の正確な性能定量化は、ほとんど未解明のままである。
本研究は,ORANのエッジテストベッドとして機能する1つのコモディティRaspberry Pi上でのLLM推論の計算要求について検討する。
モジュール型のプロンプト実装を備えた軽量Kubernetesディストリビューション(K3s)を使用して,Raspberry Pi 5クラスタ上で,小型,中規模,大規模モデルを含むさまざまなLLMを調査する。
スループット,レイテンシ,精度,効率を解析し,その実現可能性と限界について検討する。
以上の結果から,Yi,Phi,Llama3などの軽量モデルによるCPUのみのデプロイはエッジアプリケーションを効果的にサポートし,5~12トークン/秒の生成スループットを50%未満のCPUとRAM使用率で達成できることが示唆された。
GenAI on the edgeは、クラウドインフラに依存しない6Gネットワークにおいて、リモートまたは帯域制限のある環境で、ローカライズされた推論を提供すると結論付けている。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Programmable and Customized Intelligence for Traffic Steering in 5G
Networks Using Open RAN Architectures [16.48682480842328]
5G以降のモバイルネットワークは、前例のない規模で異質なユースケースをサポートする。
無線アクセスネットワーク(RAN)のこのようなきめ細かい制御は、現在のセルアーキテクチャでは不可能である。
クローズドループ制御を可能とし,ユーザレベルでRANをデータ駆動でインテリジェントに最適化するオープンアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-09-28T15:31:06Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Communication-Efficient Separable Neural Network for Distributed
Inference on Edge Devices [2.28438857884398]
本稿では,分散推論のためのニューラルネットワークを分離するために,モデル並列性を利用する新しい手法を提案する。
デバイスの適切な仕様とモデルの構成の下で、エッジクラスタ上の大規模ニューラルネットワークの推論が分散し、加速可能であることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-03T19:30:28Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Edge-Detect: Edge-centric Network Intrusion Detection using Deep Neural
Network [0.0]
エッジノードは、Internet-of-Thingsエンドポイント上の複数のサイバー攻撃を検出するために不可欠である。
DLM技術を用いてエッジノードに対するDoS攻撃を検知する,軽量で高速かつ高精度なEdge-Detectモデルを開発した。
論文 参考訳(メタデータ) (2021-02-03T04:24:34Z) - Cluster Pruning: An Efficient Filter Pruning Method for Edge AI Vision
Applications [13.197955183748796]
CNNでフィルタを除去する構造的方法を提供するクラスタプルーニングと呼ばれる新しいグリーディ手法が提案されている。
提案手法を用いてエッジAIアプリケーションをデプロイするために,Intel Movidius-NCSからなる低コストIoTハードウェアセットアップを提案する。
論文 参考訳(メタデータ) (2020-03-05T06:20:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。