論文の概要: HawkVision: Low-Latency Modeless Edge AI Serving
- arxiv url: http://arxiv.org/abs/2405.19213v1
- Date: Wed, 29 May 2024 15:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.474737
- Title: HawkVision: Low-Latency Modeless Edge AI Serving
- Title(参考訳): HawkVision:低レイテンシのモードレスエッジAI
- Authors: ChonLam Lao, Jiaqi Gao, Ganesh Ananthanarayanan, Aditya Akella, Minlan Yu,
- Abstract要約: 視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。
HawkVisionは、現在のサービスシステムにおいて、モードレスサービスを提供するためにP99レイテンシで1.6倍の性能を発揮する。
FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。
- 参考スコア(独自算出の注目度): 10.110832890670997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trend of modeless ML inference is increasingly growing in popularity as it hides the complexity of model inference from users and caters to diverse user and application accuracy requirements. Previous work mostly focuses on modeless inference in data centers. To provide low-latency inference, in this paper, we promote modeless inference at the edge. The edge environment introduces additional challenges related to low power consumption, limited device memory, and volatile network environments. To address these challenges, we propose HawkVision, which provides low-latency modeless serving of vision DNNs. HawkVision leverages a two-layer edge-DC architecture that employs confidence scaling to reduce the number of model options while meeting diverse accuracy requirements. It also supports lossy inference under volatile network environments. Our experimental results show that HawkVision outperforms current serving systems by up to 1.6X in P99 latency for providing modeless service. Our FPGA prototype demonstrates similar performance at certain accuracy levels with up to a 3.34X reduction in power consumption.
- Abstract(参考訳): モデムレスML推論のトレンドは、ユーザやキャッチャーによるモデル推論の複雑さを隠蔽し、多様なユーザやアプリケーションの精度要件を隠蔽するため、人気が高まっている。
これまでの作業は主に、データセンターのモードレス推論に重点を置いていた。
本稿では,低遅延推論を実現するために,エッジでのモードレス推論を促進する。
エッジ環境は、低消費電力、限られたデバイスメモリ、揮発性ネットワーク環境に関連するさらなる課題をもたらす。
これらの課題に対処するために,視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。
HawkVisionは2層エッジDCアーキテクチャを活用し、信頼性スケーリングを利用してモデルオプションの数を削減し、さまざまな精度要件を満たしている。
また、揮発性ネットワーク環境下での損失推論もサポートする。
我々の実験結果によると、HawkVisionは、モードレスサービスを提供するために、P99のレイテンシにおいて、現在のサービスシステムよりも1.6倍の性能を発揮する。
FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Efficient Multi-Object Tracking on Edge Devices via Reconstruction-Based Channel Pruning [0.2302001830524133]
現代のMOTシステムで使用されるような複雑なネットワークの圧縮に適したニューラルネットワークプルーニング手法を提案する。
我々は、高い精度を維持しつつ、最大70%のモデルサイズ削減を実現し、さらにJetson Orin Nanoの性能を向上させる。
論文 参考訳(メタデータ) (2024-10-11T12:37:42Z) - Heterogeneity-Aware Resource Allocation and Topology Design for Hierarchical Federated Edge Learning [9.900317349372383]
Federated Learning (FL)は、モバイルデバイス上で機械学習モデルをトレーニングするためのプライバシー保護フレームワークを提供する。
従来のFLアルゴリズム、例えばFedAvgはこれらのデバイスに重い通信負荷を課す。
エッジデバイスをエッジサーバに接続し,エッジサーバをピアツーピア(P2P)エッジバックホールを介して相互接続する2層HFELシステムを提案する。
我々の目標は、戦略的資源配分とトポロジ設計により、HFELシステムの訓練効率を向上させることである。
論文 参考訳(メタデータ) (2024-09-29T01:48:04Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative
Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。
エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。
最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文 参考訳(メタデータ) (2023-06-02T07:00:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep
Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。
DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。
モデルのサイズが1ユニットあたりわずか3~1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2022-12-02T16:51:58Z) - Computational Intelligence and Deep Learning for Next-Generation
Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。
本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。
特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文 参考訳(メタデータ) (2021-10-28T08:14:57Z) - Adaptive Dynamic Pruning for Non-IID Federated Learning [3.8666113275834335]
フェデレートラーニング(FL)は、データセキュリティとプライバシを犠牲にすることなく機械学習モデルをトレーニングする新たなパラダイムとして登場した。
FLシステムにおけるエッジデバイスに対する適応型プルーニング方式を提案し,非IIDデータセットの推論高速化にデータセット対応動的プルーニングを適用した。
論文 参考訳(メタデータ) (2021-06-13T05:27:43Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z) - A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration
Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。
従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。
プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-13T23:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。