論文の概要: Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference
- arxiv url: http://arxiv.org/abs/2405.17245v1
- Date: Mon, 27 May 2024 15:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 14:53:29.030711
- Title: Galaxy: A Resource-Efficient Collaborative Edge AI System for In-situ Transformer Inference
- Title(参考訳): Galaxy: In-situ Transformer推論のためのリソース効率の良い協調エッジAIシステム
- Authors: Shengyuan Ye, Jiangsu Du, Liekang Zeng, Wenzhong Ou, Xiaowen Chu, Yutong Lu, Xu Chen,
- Abstract要約: トランスフォーマーベースのモデルは、エッジに多数の強力なインテリジェントなアプリケーションをアンロックした。
従来のデプロイメントアプローチでは、推論ワークロードをリモートクラウドサーバにオフロードする。
我々は、異種エッジデバイスにまたがるリソース壁を壊す、協調的なエッジAIシステムであるGalaxyを提案する。
- 参考スコア(独自算出の注目度): 19.60655813679882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have unlocked a plethora of powerful intelligent applications at the edge, such as voice assistant in smart home. Traditional deployment approaches offload the inference workloads to the remote cloud server, which would induce substantial pressure on the backbone network as well as raise users' privacy concerns. To address that, in-situ inference has been recently recognized for edge intelligence, but it still confronts significant challenges stemming from the conflict between intensive workloads and limited on-device computing resources. In this paper, we leverage our observation that many edge environments usually comprise a rich set of accompanying trusted edge devices with idle resources and propose Galaxy, a collaborative edge AI system that breaks the resource walls across heterogeneous edge devices for efficient Transformer inference acceleration. Galaxy introduces a novel hybrid model parallelism to orchestrate collaborative inference, along with a heterogeneity-aware parallelism planning for fully exploiting the resource potential. Furthermore, Galaxy devises a tile-based fine-grained overlapping of communication and computation to mitigate the impact of tensor synchronizations on inference latency under bandwidth-constrained edge environments. Extensive evaluation based on prototype implementation demonstrates that Galaxy remarkably outperforms state-of-the-art approaches under various edge environment setups, achieving up to 2.5x end-to-end latency reduction.
- Abstract(参考訳): トランスフォーマーベースのモデルでは、スマートホームにおける音声アシスタントなど、エッジに強力なインテリジェントなアプリケーションが多数存在する。
従来のデプロイメントアプローチでは、推論ワークロードをリモートクラウドサーバにオフロードすることで、バックボーンネットワークにかなりのプレッシャーを発生させると同時に、ユーザのプライバシの懸念も高まる。
これに対処するため、最近、エッジインテリジェンスとしてin-situ推論が認識されているが、集中的なワークロードとオンデバイスコンピューティングリソースの制限による大きな課題に直面している。
本稿では,多くのエッジ環境がアイドルリソースを伴う信頼されたエッジデバイスのリッチな集合で構成されているという認識を活用し,異種エッジデバイス間のリソース壁を壊して効率的なトランスフォーマー推論高速化を実現する,協調的なエッジAIシステムであるGalaxyを提案する。
Galaxyは、協調推論をオーケストレーションするための新しいハイブリッドモデル並列化と、リソースポテンシャルを完全に活用するための異質性を考慮した並列化計画を導入している。
さらに、Galaxyは、帯域制限エッジ環境下での推論遅延に対するテンソル同期の影響を軽減するために、タイルベースの通信と計算のきめ細かいオーバーラップを考案している。
プロトタイプ実装に基づく大規模な評価は、Galaxyが様々なエッジ環境設定下で最先端のアプローチを著しく上回り、最大2.5倍のレイテンシ削減を実現していることを示している。
関連論文リスト
- Asteroid: Resource-Efficient Hybrid Pipeline Parallelism for Collaborative DNN Training on Heterogeneous Edge Devices [13.24437638911459]
デバイス上でのディープニューラルネットワーク(DNN)トレーニングは、エッジでのプライバシ保護機械学習において不可欠であると認識されている。
Asteroidは異種エッジデバイスにまたがる資源壁を破り、効率的なモデルトレーニングアクセラレーションを実現する分散エッジトレーニングシステムである。
論文 参考訳(メタデータ) (2024-08-15T08:25:50Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - Failure-Resilient Distributed Inference with Model Compression over Heterogeneous Edge Devices [9.423705897088672]
ヘテロジニアスエッジデバイス上でのディープニューラルネットワークベース推論タスクの局所分散実行のための堅牢な協調推論機構であるRoCoInを提案する。
分散配置のための知識蒸留を用いて、大規模なモデルから学習される、独立的でコンパクトな学生モデルのセットを作成する。
特に、デバイスは戦略的にグループ化され、同じ学生モデルを冗長にデプロイし、実行し、推論プロセスが任意のローカル障害に対して回復力を持つようにします。
論文 参考訳(メタデータ) (2024-06-20T10:43:53Z) - Distributed Threat Intelligence at the Edge Devices: A Large Language Model-Driven Approach [0.0]
エッジデバイス上の分散脅威インテリジェンスは、リソース制約されたエッジデバイス上でのサイバーセキュリティを強化するための有望なパラダイムである。
このアプローチでは、エッジデバイスに直接軽量機械学習モデルをデプロイして、ネットワークトラフィックやシステムログなどのローカルデータストリームをリアルタイムで分析する。
提案するフレームワークは,ネットワークからエッジデバイスを分離することで,サイバー脅威の検出と緩和において,より優れたセキュリティを提供することにより,エッジコンピューティングのセキュリティを向上させることができる。
論文 参考訳(メタデータ) (2024-05-14T16:40:37Z) - Artificial Intelligence Empowered Multiple Access for Ultra Reliable and
Low Latency THz Wireless Networks [76.89730672544216]
テラヘルツ(THz)無線ネットワークは、第5世代(B5G)以上の時代を触媒すると予想されている。
いくつかのB5Gアプリケーションの超信頼性と低レイテンシ要求を満たすためには、新しいモビリティ管理アプローチが必要である。
本稿では、インテリジェントなユーザアソシエーションとリソースアロケーションを実現するとともに、フレキシブルで適応的なモビリティ管理を可能にする、全体論的MAC層アプローチを提案する。
論文 参考訳(メタデータ) (2022-08-17T03:00:24Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Auto-Split: A General Framework of Collaborative Edge-Cloud AI [49.750972428032355]
本稿では,Huawei Cloudのエッジクラウド共同プロトタイプであるAuto-Splitの技法と技術実践について述べる。
私たちの知る限りでは、Deep Neural Network(DNN)分割機能を提供する既存の産業製品はありません。
論文 参考訳(メタデータ) (2021-08-30T08:03:29Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z) - CoEdge: Cooperative DNN Inference with Adaptive Workload Partitioning
over Heterogeneous Edge Devices [39.09319776243573]
CoEdgeは、異種エッジデバイス上での協調推論をオーケストレーションする分散ディープニューラルネットワーク(DNN)コンピューティングシステムである。
CoEdgeは4つの広く採用されているCNNモデルに対して25.5%66.9%のエネルギー削減を実現し、予測遅延を短くして省エネする。
論文 参考訳(メタデータ) (2020-12-06T13:15:52Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。