論文の概要: HawkVision: Low-Latency Modeless Edge AI Serving
- arxiv url: http://arxiv.org/abs/2405.19213v1
- Date: Wed, 29 May 2024 15:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 16:31:41.474737
- Title: HawkVision: Low-Latency Modeless Edge AI Serving
- Title(参考訳): HawkVision:低レイテンシのモードレスエッジAI
- Authors: ChonLam Lao, Jiaqi Gao, Ganesh Ananthanarayanan, Aditya Akella, Minlan Yu,
- Abstract要約: 視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。
HawkVisionは、現在のサービスシステムにおいて、モードレスサービスを提供するためにP99レイテンシで1.6倍の性能を発揮する。
FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。
- 参考スコア(独自算出の注目度): 10.110832890670997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The trend of modeless ML inference is increasingly growing in popularity as it hides the complexity of model inference from users and caters to diverse user and application accuracy requirements. Previous work mostly focuses on modeless inference in data centers. To provide low-latency inference, in this paper, we promote modeless inference at the edge. The edge environment introduces additional challenges related to low power consumption, limited device memory, and volatile network environments. To address these challenges, we propose HawkVision, which provides low-latency modeless serving of vision DNNs. HawkVision leverages a two-layer edge-DC architecture that employs confidence scaling to reduce the number of model options while meeting diverse accuracy requirements. It also supports lossy inference under volatile network environments. Our experimental results show that HawkVision outperforms current serving systems by up to 1.6X in P99 latency for providing modeless service. Our FPGA prototype demonstrates similar performance at certain accuracy levels with up to a 3.34X reduction in power consumption.
- Abstract(参考訳): モデムレスML推論のトレンドは、ユーザやキャッチャーによるモデル推論の複雑さを隠蔽し、多様なユーザやアプリケーションの精度要件を隠蔽するため、人気が高まっている。
これまでの作業は主に、データセンターのモードレス推論に重点を置いていた。
本稿では,低遅延推論を実現するために,エッジでのモードレス推論を促進する。
エッジ環境は、低消費電力、限られたデバイスメモリ、揮発性ネットワーク環境に関連するさらなる課題をもたらす。
これらの課題に対処するために,視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。
HawkVisionは2層エッジDCアーキテクチャを活用し、信頼性スケーリングを利用してモデルオプションの数を削減し、さまざまな精度要件を満たしている。
また、揮発性ネットワーク環境下での損失推論もサポートする。
我々の実験結果によると、HawkVisionは、モードレスサービスを提供するために、P99のレイテンシにおいて、現在のサービスシステムよりも1.6倍の性能を発揮する。
FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。
関連論文リスト
- Enhanced Model Robustness to Input Corruptions by Per-corruption Adaptation of Normalization Statistics [22.876222327262596]
本稿では,視覚システムのモデルロバスト性を高めるために,正規化統計のPer-corruption Adaptation(PAN)を導入する。
提案手法は, 汚職型識別モジュール, (ii) 特定汚職型に基づく正規化層統計の動的調整, (iii) 入力データに基づくこれらの統計のリアルタイム更新の3つの重要な要素を包含する。
論文 参考訳(メタデータ) (2024-07-08T23:20:18Z) - LAECIPS: Large Vision Model Assisted Adaptive Edge-Cloud Collaboration for IoT-based Perception System [24.84622024011103]
大規模モデルの共同推論によるエッジクラウドのコラボレーションは、高い推論精度と低レイテンシを実現するための有望なアプローチを提供する。
既存のエッジクラウドコラボレーションメソッドはモデルアーキテクチャと密結合されており、異種IoT環境での動的データドリフトに適応できない。
LAECIPSでは、クラウド上の大きなビジョンモデルとエッジ上の軽量モデルの両方がプラグアンドプレイである。我々は、高い精度と低レイテンシの両方に最適化されたハードインプットマイニングに基づくエッジクラウドコラボレーション戦略を設計する。
論文 参考訳(メタデータ) (2024-04-16T12:12:06Z) - HSViT: Horizontally Scalable Vision Transformer [16.46308352393693]
Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。
本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。
HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
論文 参考訳(メタデータ) (2024-04-08T04:53:29Z) - Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。
CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文 参考訳(メタデータ) (2024-02-27T08:47:19Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - LLHR: Low Latency and High Reliability CNN Distributed Inference for
Resource-Constrained UAV Swarms [2.320417845168326]
無人航空機(UAV)は、監視、捜索および救助活動、環境監視など、多くの重要な応用において優れた性能を示している。
有望な解決策の1つは、利用可能なリソースに基づいてUAV間で分散可能なサブタスクに推論要求を分割することである。
システムモデルでは,高い信頼性と低レイテンシを保証する最適な送信電力の探索を目的として,リアルタイム要求を処理している。
論文 参考訳(メタデータ) (2023-05-25T08:47:16Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Efficient Graph Neural Network Inference at Large Scale [54.89457550773165]
グラフニューラルネットワーク(GNN)は、幅広いアプリケーションで優れた性能を示している。
既存のスケーラブルなGNNは、線形伝搬を利用して特徴を前処理し、トレーニングと推論の手順を高速化する。
本稿では,そのトポロジ情報に基づいて各ノードに対してパーソナライズされた伝搬順序を生成する適応的伝搬順序法を提案する。
論文 参考訳(メタデータ) (2022-11-01T14:38:18Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。