論文の概要: EPARA: Parallelizing Categorized AI Inference in Edge Clouds
- arxiv url: http://arxiv.org/abs/2511.00603v1
- Date: Sat, 01 Nov 2025 16:09:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.858954
- Title: EPARA: Parallelizing Categorized AI Inference in Edge Clouds
- Title(参考訳): EPARA:エッジクラウドにおけるカテゴリ化されたAI推論の並列化
- Authors: Yubo Wang, Yubo Cui, Tuo Shi, Danyang Li, Wenxin Li, Lide Suo, Tao Wang, Xin Xie,
- Abstract要約: EPARAはエッジにおけるエンドツーエンドのAI並列推論フレームワークである。
EPARAは,1)タスクの並列モードを決定するタスク分類並列化アロケータ,2)特定の要求の計算を行う分散リクエストハンドラ,3)エッジクラウドにおけるサービス配置を定期的に更新する状態認識スケジューラの3つのコアコンポーネントから構成される。
- 参考スコア(独自算出の注目度): 16.410733484834687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing adoption of AI applications such as large language models and computer vision AI, the computational demands on AI inference systems are continuously rising, making the enhancement of task processing capacity using existing hardware a primary objective in edge clouds. We propose EPARA, an end-to-end AI parallel inference framework in edge, aimed at enhancing the edge AI serving capability. Our key idea is to categorize tasks based on their sensitivity to latency/frequency and requirement for GPU resources, thereby achieving both request-level and service-level task-resource allocation. EPARA consists of three core components: 1) a task-categorized parallelism allocator that decides the parallel mode of each task, 2) a distributed request handler that performs the calculation for the specific request, and 3) a state-aware scheduler that periodically updates service placement in edge clouds. We implement a EPARA prototype and conduct a case study on the EPARA operation for LLMs and segmentation tasks. Evaluation through testbed experiments involving edge servers, embedded devices, and microcomputers shows that EPARA achieves up to 2.1$\times$ higher goodput in production workloads compared to prior frameworks, while adapting to various edge AI inference tasks.
- Abstract(参考訳): 大規模言語モデルやコンピュータビジョンAIなどのAIアプリケーションの採用の増加に伴い、AI推論システムに対する計算要求が継続的に増加し、既存のハードウェアを使用したタスク処理能力の強化がエッジクラウドの主要な目標となっている。
エッジにおけるエンドツーエンドAI並列推論フレームワークであるEPARAを提案する。
私たちのキーとなる考え方は、レイテンシ/周波数に対する感度とGPUリソースの要求に基づいてタスクを分類し、リクエストレベルとサービスレベルのタスクリソース割り当ての両方を達成することです。
EPARAは3つのコアコンポーネントから構成される。
1)各タスクの並列モードを決定するタスク分類並列化アロケータ
2 特定要求の計算を行う分散要求ハンドラ及び
3) エッジクラウド内のサービス配置を定期的に更新する状態認識スケジューラ。
EPARAのプロトタイプを実装し, LLMのEPARA操作とセグメンテーションタスクのケーススタディを行う。
エッジサーバ、組み込みデバイス、マイクロコンピュータを含むテストベッド実験による評価によると、EPARAは、さまざまなエッジAI推論タスクに適応しながら、以前のフレームワークと比較して、運用ワークロードの最大2.1$\times$高出力を実現している。
関連論文リスト
- Multi-dimensional Autoscaling of Processing Services: A Comparison of Agent-based Methods [5.201504495733271]
この作業では、制約のある環境で要求を満たすのを最大化するエージェントベースのオートスケーリングフレームワークを導入している。
我々は,アクティブ推論,ディープQネットワーク,構造知識の分析,ディープアクティブ推論の4種類のスケーリングエージェントを比較した。
論文 参考訳(メタデータ) (2025-06-12T07:20:26Z) - RoboCerebra: A Large-scale Benchmark for Long-horizon Robotic Manipulation Evaluation [59.9896841079005]
長距離ロボット操作における高レベル推論評価のためのベンチマークであるRoboCerebraを紹介する。
データセットはトップダウンパイプラインを通じて構築され、GPTはタスク命令を生成し、それらをサブタスクシーケンスに分解する。
以前のベンチマークと比較すると、RoboCerebraはアクションシーケンスが大幅に長く、アノテーションがより密度が高い。
論文 参考訳(メタデータ) (2025-06-07T06:15:49Z) - Profiling AI Models: Towards Efficient Computation Offloading in Heterogeneous Edge AI Systems [0.2357055571094446]
本稿では、AIモデルのプロファイリング、モデルタイプと基盤となるハードウェアに関するデータ収集、リソース利用とタスク完了時間の予測に焦点を当てた研究ロードマップを提案する。
3,000以上の実行での実験は、リソース割り当ての最適化とEdge AIのパフォーマンス向上を約束している。
論文 参考訳(メタデータ) (2024-10-30T16:07:14Z) - Integrated Sensing-Communication-Computation for Edge Artificial Intelligence [41.611639821262415]
統合センシング通信計算(I SCC)は,資源利用の向上に最重要課題である。
本稿では、エッジ学習タスクとエッジAI推論タスクをアプリケーション層と物理層の両方で行うための各種のISCCスキームについて述べる。
論文 参考訳(メタデータ) (2023-06-01T21:35:20Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - Boundary-assisted Region Proposal Networks for Nucleus Segmentation [89.69059532088129]
大量の核が混在しているため、機械学習モデルはうまく機能しない。
我々は、堅牢なインスタンスレベルの核分割を実現する境界支援領域提案ネットワーク(BRP-Net)を考案する。
論文 参考訳(メタデータ) (2020-06-04T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。