論文の概要: A QoE-Aware Split Inference Accelerating Algorithm for NOMA-based Edge Intelligence
- arxiv url: http://arxiv.org/abs/2409.16537v1
- Date: Wed, 25 Sep 2024 01:09:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-27 06:06:51.262797
- Title: A QoE-Aware Split Inference Accelerating Algorithm for NOMA-based Edge Intelligence
- Title(参考訳): NOMAを用いたエッジインテリジェンスのためのQoE対応スプリット推論高速化アルゴリズム
- Authors: Xin Yuan, Ning Li, Quan Chen, Wenchao Xu, Zhaoxin Zhang, Song Guo,
- Abstract要約: 本稿では,エッジインテリジェンスにおける分割推論の高速化を目的として,効率的な資源割当アルゴリズムを提案する。
ERAは、最適なモデル分割戦略とリソース割り当て戦略を見つけるために、リソース消費、QoE、および推論遅延を考慮に入れます。
実験結果から,ERAの性能は従来の研究よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 20.67035066213381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Even the AI has been widely used and significantly changed our life, deploying the large AI models on resource limited edge devices directly is not appropriate. Thus, the model split inference is proposed to improve the performance of edge intelligence, in which the AI model is divided into different sub models and the resource-intensive sub model is offloaded to edge server wirelessly for reducing resource requirements and inference latency. However, the previous works mainly concentrate on improving and optimizing the system QoS, ignore the effect of QoE which is another critical item for the users except for QoS. Even the QoE has been widely learned in EC, considering the differences between task offloading in EC and split inference in EI, and the specific issues in QoE which are still not addressed in EC and EI, these algorithms cannot work effectively in edge split inference scenarios. Thus, an effective resource allocation algorithm is proposed in this paper, for accelerating split inference in EI and achieving the tradeoff between inference delay, QoE, and resource consumption, abbreviated as ERA. Specifically, the ERA takes the resource consumption, QoE, and inference latency into account to find the optimal model split strategy and resource allocation strategy. Since the minimum inference delay and resource consumption, and maximum QoE cannot be satisfied simultaneously, the gradient descent based algorithm is adopted to find the optimal tradeoff between them. Moreover, the loop iteration GD approach is developed to reduce the complexity of the GD algorithm caused by parameter discretization. Additionally, the properties of the proposed algorithms are investigated, including convergence, complexity, and approximation error. The experimental results demonstrate that the performance of ERA is much better than that of the previous studies.
- Abstract(参考訳): AIが広く使われ、私たちの生活を大きく変えたとしても、大きなAIモデルをリソース制限されたエッジデバイスに直接デプロイするのは適切ではありません。
このように、AIモデルを異なるサブモデルに分割し、リソース集約的なサブモデルをエッジサーバにオフロードすることで、リソース要求と推論レイテンシを低減することにより、エッジインテリジェンスの性能を向上させるためにモデル分割推論を提案する。
しかし,従来の研究は主にシステムQoSの改良と最適化に重点を置いており,QoS以外のユーザにとって重要な項目であるQoEの効果を無視している。
ECにおけるタスクオフロードとEIにおけるスプリット推論の違いと、ECとEIで対処されていないQoEの特定の問題を考えると、これらのアルゴリズムはエッジ分割推論シナリオで効果的に機能することができない。
そこで本論文では,EIにおけるスプリット推論の高速化と,推論遅延,QoE,リソース消費のトレードオフを実現するための効果的な資源割当アルゴリズムを提案する。
具体的には、リソース消費、QoE、および推論遅延を考慮に入れ、最適なモデル分割戦略とリソース割り当て戦略を見出す。
最小の推論遅延と資源消費と最大QoEを同時に満たすことができないため、勾配降下に基づくアルゴリズムを用いてそれらの間の最適なトレードオフを求める。
さらに,パラメータの離散化によるGDアルゴリズムの複雑性を低減するために,ループ反復GD手法を開発した。
さらに, 収束, 複雑性, 近似誤差など, 提案アルゴリズムの特性について検討した。
実験結果から,ERAの性能は従来の研究よりも優れていることが示された。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - Edge Intelligence Optimization for Large Language Model Inference with Batching and Quantization [20.631476379056892]
大規模言語モデル(LLM)がこの運動の最前線にある。
LLMはクラウドホスティングを必要とするため、プライバシやレイテンシ、使用制限に関する問題が発生する。
LLM推論に適したエッジインテリジェンス最適化問題を提案する。
論文 参考訳(メタデータ) (2024-05-12T02:38:58Z) - Mobility and Cost Aware Inference Accelerating Algorithm for Edge
Intelligence [24.512525338942158]
近年,エッジインテリジェンス(EI)が広く採用されている。デバイス,エッジサーバ,クラウド間のモデルを分割することで,EIの性能が大幅に向上する。
ユーザモビリティのないモデルセグメンテーションは,これまでにも深く研究されてきた。
本稿では,エッジでの推論を高速化するためのモビリティとコストを考慮したモデルセグメンテーションと資源配分アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-27T10:04:02Z) - High Efficiency Inference Accelerating Algorithm for NOMA-based Mobile
Edge Computing [23.88527790721402]
デバイス、エッジサーバ、クラウド間の推論モデルを分割することで、EIの性能を大幅に向上させることができる。
B5G/6Gのキーとなる技術であるNOMAは、膨大な接続と高スペクトル効率を実現することができる。
本稿では,エッジでのモデル推論を高速化する効果的な通信資源割当アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-26T02:05:52Z) - Differentially Private Deep Q-Learning for Pattern Privacy Preservation
in MEC Offloading [76.0572817182483]
攻撃者は、エッジサーバ(ES)のキュー情報とユーザの使用パターンを推測するために、オフロードの決定を盗み取ることができる。
パターンプライバシ(PP)を維持しつつ,レイテンシ,ESのエネルギー消費,タスク削減率を両立させるオフロード戦略を提案する。
そこで我々はDP-DQOアルゴリズムを開発し,PP問題にノイズを注入することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T12:50:18Z) - Task-Oriented Sensing, Computation, and Communication Integration for
Multi-Device Edge AI [108.08079323459822]
本稿では,AIモデルの分割推論と統合センシング通信(ISAC)を併用した,新しいマルチインテリジェントエッジ人工レイテンシ(AI)システムについて検討する。
推定精度は近似的だが抽出可能な計量、すなわち判別利得を用いて測定する。
論文 参考訳(メタデータ) (2022-07-03T06:57:07Z) - Regret Bounds for Expected Improvement Algorithms in Gaussian Process
Bandit Optimization [63.8557841188626]
期待されている改善(EI)アルゴリズムは、不確実性の下で最適化するための最も一般的な戦略の1つである。
本稿では,GP予測平均を通した標準既存値を持つEIの変種を提案する。
我々のアルゴリズムは収束し、$mathcal O(gamma_TsqrtT)$の累積後悔境界を達成することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:17:53Z) - DESTRESS: Computation-Optimal and Communication-Efficient Decentralized
Nonconvex Finite-Sum Optimization [43.31016937305845]
インターネット・オブ・シング、ネットワークセンシング、自律システム、有限サム最適化のための分散アルゴリズムのためのフェデレーション学習。
非有限サム最適化のためのDecentralized STochastic Recursive MethodDESTRESSを開発した。
詳細な理論的および数値的な比較は、DESTRESSが事前の分散アルゴリズムにより改善されていることを示している。
論文 参考訳(メタデータ) (2021-10-04T03:17:41Z) - Resource Allocation via Model-Free Deep Learning in Free Space Optical
Communications [119.81868223344173]
本稿では,自由空間光学(FSO)通信におけるチャネルフェージング効果の緩和のための資源配分の一般的な問題について検討する。
本フレームワークでは,FSO資源割り当て問題を解決する2つのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-27T17:38:51Z) - Deep unfolding of the weighted MMSE beamforming algorithm [9.518010235273783]
MISOダウンリンクチャネルに対するWMMSEアルゴリズムに対する深部展開の新たな適用法を提案する。
深層展開は、自然に専門家の知識を取り入れており、即時かつしっかりとしたアーキテクチャ選択の利点、トレーニング可能なパラメータの少ないこと、説明可能性の向上がある。
シミュレーションにより、ほとんどの設定において、展開されたWMMSEは、一定回数の反復に対して、WMMSEよりも優れているか、等しく動作することを示す。
論文 参考訳(メタデータ) (2020-06-15T14:51:20Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。