論文の概要: Multi-user Co-inference with Batch Processing Capable Edge Server
- arxiv url: http://arxiv.org/abs/2206.06304v1
- Date: Fri, 3 Jun 2022 15:40:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-19 23:35:27.166759
- Title: Multi-user Co-inference with Batch Processing Capable Edge Server
- Title(参考訳): バッチ処理可能なエッジサーバを備えたマルチユーザ会議
- Authors: Wenqi Shi, Sheng Zhou, Zhisheng Niu, Miao Jiang, Lu Geng
- Abstract要約: エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。
推論タスクは、オフロードとスケジューリングのより細かい粒度のためにサブタスクに分割される。
各ユーザのオフロードポリシを独立して最適化し,同じサブタスクをすべてひとつのバッチで集約することが最適であることが証明された。
実験の結果、IP-SSAはオフライン環境でのユーザエネルギー消費を94.9%削減することがわかった。
- 参考スコア(独自算出の注目度): 26.813145949399427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graphics processing units (GPUs) can improve deep neural network inference
throughput via batch processing, where multiple tasks are concurrently
processed. We focus on novel scenarios that the energy-constrained mobile
devices offload inference tasks to an edge server with GPU. The inference task
is partitioned into sub-tasks for a finer granularity of offloading and
scheduling, and the user energy consumption minimization problem under
inference latency constraints is investigated. To deal with the coupled
offloading and scheduling introduced by concurrent batch processing, we first
consider an offline problem with a constant edge inference latency and the same
latency constraint. It is proven that optimizing the offloading policy of each
user independently and aggregating all the same sub-tasks in one batch is
optimal, and thus the independent partitioning and same sub-task aggregating
(IP-SSA) algorithm is inspired. Further, the optimal grouping (OG) algorithm is
proposed to optimally group tasks when the latency constraints are different.
Finally, when future task arrivals cannot be precisely predicted, a deep
deterministic policy gradient (DDPG) agent is trained to call OG. Experiments
show that IP-SSA reduces up to 94.9\% user energy consumption in the offline
setting, while DDPG-OG outperforms DDPG-IP-SSA by up to 8.92\% in the online
setting.
- Abstract(参考訳): gpu(graphics processing unit)は、複数のタスクが同時に処理されるバッチ処理を通じて、ディープニューラルネットワークの推論スループットを向上させる。
エネルギー制約のあるモバイルデバイスが推論タスクをGPUでエッジサーバにオフロードするという,新たなシナリオに注目した。
推論タスクをオフロードとスケジューリングの粒度を細かくするためにサブタスクに分割し、推論遅延制約下でのユーザエネルギー消費最小化問題を調査する。
並列バッチ処理によって引き起こされる結合オフロードとスケジューリングに対処するために,我々はまず,エッジ推論の遅延が一定であり,レイテンシの制約が同じオフライン問題を考える。
各ユーザのオフロードポリシを独立して最適化し,すべてのサブタスクをひとつのバッチで集約することが最適であることが証明され,独立分割と同一サブタスク集約(IP-SSA)アルゴリズムが着想を得た。
さらに、遅延制約が異なるタスクを最適にグループ化するために、最適グループ化(OG)アルゴリズムを提案する。
最後に、将来のタスク到着を正確に予測できない場合、深い決定論的ポリシー勾配(DDPG)エージェントがOGを呼び出すように訓練される。
実験の結果、オフライン環境ではIP-SSAが94.9 %まで削減され、オンライン環境ではDDPG-IP-SSAが最大8.92 %向上した。
関連論文リスト
- DynaSplit: A Hardware-Software Co-Design Framework for Energy-Aware Inference on Edge [40.96858640950632]
ソフトウェアとハードウェアの両方でパラメータを動的に設定するフレームワークであるDynaSplitを提案する。
実世界のテストベッド上で、人気のあるトレーニング済みNNを用いてDynaSplitを評価する。
その結果,クラウドのみの計算に比べてエネルギー消費が最大で72%減少した。
論文 参考訳(メタデータ) (2024-10-31T12:44:07Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Fractional Deep Reinforcement Learning for Age-Minimal Mobile Edge
Computing [11.403989519949173]
本研究は,AOI( Age-of-Information)によって測定された計算集約更新の時系列に焦点をあてる。
我々は,AoIのタスク更新とオフロードポリシを分断形式で共同で最適化する方法について検討する。
実験の結果,提案アルゴリズムは,いくつかの非フラクタルベンチマークと比較して平均AoIを57.6%削減できることがわかった。
論文 参考訳(メタデータ) (2023-12-16T11:13:40Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Scheduling Inference Workloads on Distributed Edge Clusters with
Reinforcement Learning [11.007816552466952]
本稿では,エッジネットワークにおける予測クエリを短時間でスケジューリングする問題に焦点をあてる。
シミュレーションにより,大規模ISPの現実的なネットワーク設定とワークロードにおけるいくつかのポリシーを解析する。
我々は、強化学習に基づくスケジューリングアルゴリズムASETを設計し、システム条件に応じてその決定を適応させることができる。
論文 参考訳(メタデータ) (2023-01-31T13:23:34Z) - Efficient Latency-Aware CNN Depth Compression via Two-Stage Dynamic
Programming [15.458305667190256]
本稿では,一般的な畳み込み操作を対象とする新しい深度圧縮アルゴリズムを提案する。
ImageNetのMobileNetV2-1.0では、0.11%の精度で1.41タイムのスピードアップを実現しています。
論文 参考訳(メタデータ) (2023-01-28T13:08:54Z) - Teal: Learning-Accelerated Optimization of WAN Traffic Engineering [68.7863363109948]
本稿では,GPUの並列処理能力を活用してTE制御を高速化する学習型TEアルゴリズムTealを提案する。
問題スケールの削減と学習のトラクタビリティ向上のために,Tealはマルチエージェント強化学習(RL)アルゴリズムを用いて,各トラフィック要求を独立に割り当てる。
他のTE加速方式と比較して、Tealは需要を6~32%増やし、197~625倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2022-10-25T04:46:30Z) - Distributed Deep Learning Inference Acceleration using Seamless
Collaboration in Edge Computing [93.67044879636093]
本稿では,コラボレーティブエッジコンピューティングにおける分散畳み込みニューラルネットワーク(CNN)を用いた推論高速化について検討する。
本研究では,第2エッジサーバ(ES)上のサブタスクの重なり合うゾーンをホストES上で実行し,HALPと命名した新しいタスク協調方式を設計する。
実験結果から,GTX 1080TIとJETSON AGX Xavierでは,単一のタスクに対して1.7-2.0x,バッチ毎に1.7-1.8x,バッチ毎に1.7-1.8x,VGG-16では1.7-2.0xのCNN推論を高速化できることがわかった。
論文 参考訳(メタデータ) (2022-07-22T18:39:09Z) - Computation Offloading and Resource Allocation in F-RANs: A Federated
Deep Reinforcement Learning Approach [67.06539298956854]
フォグ無線アクセスネットワーク(フォグ無線アクセスネットワーク、F-RAN)は、ユーザのモバイルデバイス(MD)が計算タスクを近くのフォグアクセスポイント(F-AP)にオフロードできる有望な技術である。
論文 参考訳(メタデータ) (2022-06-13T02:19:20Z) - Energy Efficient Edge Computing: When Lyapunov Meets Distributed
Reinforcement Learning [12.845204986571053]
本研究では,エッジコンピューティングによるエネルギー効率のよいオフロード問題について検討する。
考慮されたシナリオでは、複数のユーザが同時に無線およびエッジコンピューティングリソースを競う。
提案されたソリューションは、ベンチマークアプローチと比較してネットワークのエネルギー効率を高めることもできます。
論文 参考訳(メタデータ) (2021-03-31T11:02:29Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。