Fugu-MT 論文翻訳(概要): HawkVision: Low-Latency Modeless Edge AI Serving

論文の概要: HawkVision: Low-Latency Modeless Edge AI Serving

arxiv url: http://arxiv.org/abs/2405.19213v1
Date: Wed, 29 May 2024 15:56:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 16:31:41.474737
Title: HawkVision: Low-Latency Modeless Edge AI Serving
Title（参考訳）: HawkVision:低レイテンシのモードレスエッジAI
Authors: ChonLam Lao, Jiaqi Gao, Ganesh Ananthanarayanan, Aditya Akella, Minlan Yu,
Abstract要約: 視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。 HawkVisionは、現在のサービスシステムにおいて、モードレスサービスを提供するためにP99レイテンシで1.6倍の性能を発揮する。 FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。
参考スコア（独自算出の注目度）: 10.110832890670997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The trend of modeless ML inference is increasingly growing in popularity as it hides the complexity of model inference from users and caters to diverse user and application accuracy requirements. Previous work mostly focuses on modeless inference in data centers. To provide low-latency inference, in this paper, we promote modeless inference at the edge. The edge environment introduces additional challenges related to low power consumption, limited device memory, and volatile network environments. To address these challenges, we propose HawkVision, which provides low-latency modeless serving of vision DNNs. HawkVision leverages a two-layer edge-DC architecture that employs confidence scaling to reduce the number of model options while meeting diverse accuracy requirements. It also supports lossy inference under volatile network environments. Our experimental results show that HawkVision outperforms current serving systems by up to 1.6X in P99 latency for providing modeless service. Our FPGA prototype demonstrates similar performance at certain accuracy levels with up to a 3.34X reduction in power consumption.
Abstract（参考訳）: モデムレスML推論のトレンドは、ユーザやキャッチャーによるモデル推論の複雑さを隠蔽し、多様なユーザやアプリケーションの精度要件を隠蔽するため、人気が高まっている。これまでの作業は主に、データセンターのモードレス推論に重点を置いていた。本稿では,低遅延推論を実現するために,エッジでのモードレス推論を促進する。エッジ環境は、低消費電力、限られたデバイスメモリ、揮発性ネットワーク環境に関連するさらなる課題をもたらす。これらの課題に対処するために,視覚DNNの低遅延モードレスサービスを提供するHawkVisionを提案する。 HawkVisionは2層エッジDCアーキテクチャを活用し、信頼性スケーリングを利用してモデルオプションの数を削減し、さまざまな精度要件を満たしている。また、揮発性ネットワーク環境下での損失推論もサポートする。我々の実験結果によると、HawkVisionは、モードレスサービスを提供するために、P99のレイテンシにおいて、現在のサービスシステムよりも1.6倍の性能を発揮する。 FPGAの試作機は、消費電力を最大3.34倍に抑えながら、一定の精度で同様の性能を示す。

関連論文リスト

Edge-First Language Model Inference: Models, Metrics, and Tradeoffs [0.7980273012483663]
本研究は、単一エッジデバイス上でのSLM機能の詳細なベンチマークから始まる、エッジとクラウドのデプロイメント間の相互作用について検討する。エッジ推論が低コストで同等のパフォーマンスを提供するシナリオや、スケーラビリティやモデルキャパシティの制限によりクラウドのフォールバックが不可欠になるシナリオを特定します。プラットフォームレベルの比較と設計の洞察を,一様かつ適応的なLM推論システム構築のために提案する。
論文参考訳（メタデータ） (2025-05-22T10:43:00Z)
The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文参考訳（メタデータ） (2025-05-14T08:18:55Z)
Noise Resilient Over-The-Air Federated Learning In Heterogeneous Wireless Networks [2.2530496464901106]
6G無線ネットワークでは、人工知能(AI)駆動のアプリケーションはフェデレートラーニング(FL)の採用を要求する。従来のOTA-FL技術は、サーバにおけるAWGN(Additive White Gaussian Noise)と、エッジデバイスにおけるデータおよびシステム不均一性の両面から影響を受けている。我々は,これらの課題に共同で取り組むために,新しいノイズ耐性オーバーザエアフェデレートラーニング(NoROTA-FL)フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-25T11:04:00Z)
LeanTTA: A Backpropagation-Free and Stateless Approach to Quantized Test-Time Adaptation on Edge Devices [13.355021314836852]
本稿では、エッジデバイスに適した量子化テスト時間適応のための、バックプロパゲーションフリーでステートレスな新しいフレームワークであるLeanTTAを紹介する。バックプロパゲーションなしで正規化統計を動的に更新することで計算コストを最小化する。我々は,センサのモダリティにまたがる枠組みを検証し,最先端のTTA手法よりも大幅に改善したことを示す。
論文参考訳（メタデータ） (2025-03-20T06:27:09Z)
Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-22T05:27:24Z)
Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2024-11-02T18:18:35Z)
Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-29T19:02:54Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
A Green Multi-Attribute Client Selection for Over-The-Air Federated Learning: A Grey-Wolf-Optimizer Approach [5.277822313069301]
OTA(Over-the-air)FLは、デバイス間直接接続や集中型サーバを使わずにモデルアップデートを広めることによって、これらの課題に対処するために導入された。 OTA-FLは、エネルギー消費の増大とネットワーク遅延の制限を引き起こした。本稿では,グレイオオカミ(GWO)を用いた多属性クライアント選択フレームワークを提案し,各ラウンドの参加者数を戦略的に制御する。
論文参考訳（メタデータ） (2024-09-16T20:03:57Z)
LAECIPS: Large Vision Model Assisted Adaptive Edge-Cloud Collaboration for IoT-based Perception System [24.84622024011103]
大規模モデルの共同推論によるエッジクラウドのコラボレーションは、高い推論精度と低レイテンシを実現するための有望なアプローチを提供する。既存のエッジクラウドコラボレーションメソッドはモデルアーキテクチャと密結合されており、異種IoT環境での動的データドリフトに適応できない。 LAECIPSでは、クラウド上の大きなビジョンモデルとエッジ上の軽量モデルの両方がプラグアンドプレイである。我々は、高い精度と低レイテンシの両方に最適化されたハードインプットマイニングに基づくエッジクラウドコラボレーション戦略を設計する。
論文参考訳（メタデータ） (2024-04-16T12:12:06Z)
HSViT: Horizontally Scalable Vision Transformer [16.46308352393693]
Vision Transformer (ViT) は大規模データセットの事前トレーニングが必要であり、パフォーマンスが向上する。本稿では,新しい水平方向拡張型ビジョントランス (HSViT) 方式を提案する。 HSViTは、小さなデータセットの最先端スキームよりも最大10%高いトップ1精度を達成する。
論文参考訳（メタデータ） (2024-04-08T04:53:29Z)
Towards Robust and Efficient Cloud-Edge Elastic Model Adaptation via Selective Entropy Distillation [56.79064699832383]
Cloud-Edge Elastic Model Adaptation (CEMA)パラダイムを確立し、エッジモデルが前方伝播のみを実行するようにします。 CEMAでは,通信負担を軽減するため,不要なサンプルをクラウドにアップロードすることを避けるための2つの基準を考案した。
論文参考訳（メタデータ） (2024-02-27T08:47:19Z)
Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文参考訳（メタデータ） (2023-09-04T17:30:21Z)
DVFO: Learning-Based DVFS for Energy-Efficient Edge-Cloud Collaborative Inference [12.095934624748686]
本稿では,新しいDVFS対応エッジクラウド協調推論フレームワークであるDVFOを提案する。エッジデバイスのCPU、GPU、メモリの周波数を自動的に最適化し、機能マップをクラウドサーバにオフロードする。最先端の計画に比べて、エネルギー消費を平均で33%削減する。
論文参考訳（メタデータ） (2023-06-02T07:00:42Z)
LLHR: Low Latency and High Reliability CNN Distributed Inference for Resource-Constrained UAV Swarms [2.320417845168326]
無人航空機(UAV)は、監視、捜索および救助活動、環境監視など、多くの重要な応用において優れた性能を示している。有望な解決策の1つは、利用可能なリソースに基づいてUAV間で分散可能なサブタスクに推論要求を分割することである。システムモデルでは,高い信頼性と低レイテンシを保証する最適な送信電力の探索を目的として,リアルタイム要求を処理している。
論文参考訳（メタデータ） (2023-05-25T08:47:16Z)
Energy-efficient Task Adaptation for NLP Edge Inference Leveraging Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文参考訳（メタデータ） (2023-03-25T14:40:59Z)
GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文参考訳（メタデータ） (2023-01-13T00:40:24Z)
DeepFT: Fault-Tolerant Edge Computing using a Self-Supervised Deep Surrogate Model [12.335763358698564]
本稿では,システム過負荷とその悪影響を積極的に回避するためにDeepFTを提案する。 DeepFTは、システム内の障害を正確に予測し、診断するために、ディープサロゲートモデルを使用している。モデルのサイズが1ユニットあたりわずか3～1%のスケールで、アクティブなタスクやホストの数が増えるため、非常にスケーラブルなソリューションを提供する。
論文参考訳（メタデータ） (2022-12-02T16:51:58Z)
Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文参考訳（メタデータ） (2022-09-27T15:04:01Z)
Computational Intelligence and Deep Learning for Next-Generation Edge-Enabled Industrial IoT [51.68933585002123]
エッジ対応産業用IoTネットワークにおける計算知能とディープラーニング(DL)の展開方法について検討する。本稿では,新しいマルチエグジットベースフェデレーションエッジ学習(ME-FEEL)フレームワークを提案する。特に、提案されたME-FEELは、非常に限られたリソースを持つ産業用IoTネットワークにおいて、最大32.7%の精度を達成することができる。
論文参考訳（メタデータ） (2021-10-28T08:14:57Z)
Adaptive Dynamic Pruning for Non-IID Federated Learning [3.8666113275834335]
フェデレートラーニング(FL)は、データセキュリティとプライバシを犠牲にすることなく機械学習モデルをトレーニングする新たなパラダイムとして登場した。 FLシステムにおけるエッジデバイスに対する適応型プルーニング方式を提案し,非IIDデータセットの推論高速化にデータセット対応動的プルーニングを適用した。
論文参考訳（メタデータ） (2021-06-13T05:27:43Z)
Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。提案されたSIDNNは、幅広いOPFスキームと互換性がある。他のLearning-to-OPFスキームとシームレスに統合できる。
論文参考訳（メタデータ） (2021-03-27T00:45:23Z)
A Privacy-Preserving-Oriented DNN Pruning and Mobile Acceleration Framework [56.57225686288006]
モバイルエッジデバイスの限られたストレージとコンピューティング能力を満たすために、ディープニューラルネットワーク(DNN)の軽量プルーニングが提案されている。従来のプルーニング手法は主に、ユーザデータのプライバシを考慮せずに、モデルのサイズを減らしたり、パフォーマンスを向上させることに重点を置いていた。プライベートトレーニングデータセットを必要としないプライバシ保護指向のプルーニングおよびモバイルアクセラレーションフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T23:52:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。