論文の概要: PartialLoading: User Scheduling and Bandwidth Allocation for Parameter-sharing Edge Inference
- arxiv url: http://arxiv.org/abs/2503.22982v1
- Date: Sat, 29 Mar 2025 05:58:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:00.833570
- Title: PartialLoading: User Scheduling and Bandwidth Allocation for Parameter-sharing Edge Inference
- Title(参考訳): 部分ローディング:パラメータ共有エッジ推論のためのユーザスケジューリングと帯域割り当て
- Authors: Guanqiao Qu, Qian Chen, Xianhao Chen, Kaibin Huang, Yuguang Fang,
- Abstract要約: マルチユーザエッジ推論のためのパラメータ共有AIモデルローディングフレームワークを開発した。
タスクスループットを最大化するために、モデル間の共有パラメータブロックを利用する。
提案するフレームワークは,ユーザスケジューリングと比較して,期限下でのタスクスループットを著しく向上することを示す。
- 参考スコア(独自算出の注目度): 32.58445942857626
- License:
- Abstract: By provisioning inference offloading services, edge inference drives the rapid growth of AI applications at the network edge. However, achieving high task throughput with stringent latency requirements remains a significant challenge. To address this issue, we develop a parameter-sharing AI model loading (PartialLoading) framework for multi-user edge inference, which exploits two key insights: 1) the majority of latency arises from loading AI models into server GPU memory, and 2) different AI models can share a significant number of parameters, for which redundant loading should be avoided. Towards this end, we formulate a joint multi-user scheduling and spectrum bandwidth allocation problem to maximize task throughput by exploiting shared parameter blocks across models. The intuition is to judiciously schedule user requests to reuse the shared parameter blocks between consecutively loaded models, thereby reducing model loading time substantially. To facilitate solution finding, we decouple the problem into two sub-problems, i.e., user scheduling and bandwidth allocation, showing that solving them sequentially is equivalent to solving the original problem. Due to the NP-hardness of the problem, we first study an important special case called the "bottom-layer-sharing" case, where AI models share some bottom layers within clusters, and design a dynamic programming-based algorithm to obtain the optimal solution in polynomial time. For the general case, where shared parameter blocks appear at arbitrary positions within AI models, we propose a greedy heuristic to obtain the sub-optimal solution efficiently. Simulation results demonstrate that the proposed framework significantly improves task throughput under deadline constraints compared with user scheduling without exploiting parameter sharing.
- Abstract(参考訳): オフロードサービスのプロビジョニングによって、エッジ推論は、ネットワークエッジでのAIアプリケーションの急速な成長を促進する。
しかし、厳格なレイテンシ要求で高いタスクスループットを達成することは、依然として大きな課題である。
この問題に対処するため、マルチユーザエッジ推論のためのパラメータ共有AIモデルローディング(PartialLoading)フレームワークを開発した。
1) レイテンシの大部分は、AIモデルをサーバGPUメモリにロードすることで発生します。
2) 異なるAIモデルは、冗長なロードを避けるために、かなりの数のパラメータを共有できる。
この目的のために、モデル間の共有パラメータブロックを利用してタスクスループットを最大化するために、マルチユーザスケジューリングと帯域幅割り当ての合同問題を定式化する。
直感的には、ユーザリクエストを任意にスケジュールし、連続的にロードされたモデル間で共有パラメータブロックを再利用することで、モデルのロード時間を大幅に短縮する。
解探索を容易にするために,ユーザスケジューリングと帯域幅割り当てという2つのサブプロブレムに分割し,問題を逐次的に解くことが元の問題を解決することと等価であることを示す。
そこで我々はまず,AIモデルがクラスタ内のボトム層を共有し,動的プログラミングに基づくアルゴリズムを設計し,最適解を多項式時間で取得する,ボット層共有(bottom-layer-sharing)という重要なケースについて検討する。
一般の場合、共有パラメータブロックがAIモデル内の任意の位置に現れる場合、最適部分解を効率的に得るための欲求的ヒューリスティックを提案する。
シミュレーションの結果,提案フレームワークはパラメータ共有を使わずにユーザスケジューリングと比較して,期限制約下でのタスクスループットを著しく向上することが示された。
関連論文リスト
- Two-Timescale Model Caching and Resource Allocation for Edge-Enabled AI-Generated Content Services [55.0337199834612]
Generative AI(GenAI)は、カスタマイズされたパーソナライズされたAI生成コンテンツ(AIGC)サービスを可能にするトランスフォーメーション技術として登場した。
これらのサービスは数十億のパラメータを持つGenAIモデルの実行を必要とし、リソース制限の無線エッジに重大な障害を生じさせる。
我々は、AIGC品質とレイテンシメトリクスのトレードオフをバランスさせるために、AIGCサービスのジョイントモデルキャッシングとリソースアロケーションの定式化を導入する。
論文 参考訳(メタデータ) (2024-11-03T07:01:13Z) - TrimCaching: Parameter-sharing AI Model Caching in Wireless Edge Networks [36.39118138582416]
次世代のモバイルネットワークは、エンドユーザへの高速なAIモデルダウンロードを容易にすることが期待されている。
エッジサーバにモデルをキャッシュすることで、モバイルネットワークは、低レイテンシでエンドユーザにモデルを配信することができる。
我々はパラメータ共有モデルキャッシング(TrimCaching)と呼ばれる新しいモデル配置方式を開発する。
論文 参考訳(メタデータ) (2024-05-07T04:08:49Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Efficient Multiuser AI Downloading via Reusable Knowledge Broadcasting [36.95383755941367]
エッジデバイス上でリアルタイム適応人工知能を実現するための重要なユースケースとして、In-situモデルダウンロードが登場した。
ボトルネックを克服するために,モデル放送と組立(MBA)の枠組みを提案する。
大規模な実験では、従来のモデルダウンロードと比較して、提案されたMBAによって達成されたダウンロード遅延が大幅に削減された。
論文 参考訳(メタデータ) (2023-07-28T05:30:19Z) - TIES-Merging: Resolving Interference When Merging Models [95.59265307318752]
転送学習は、ダウンストリーム性能の改善、収束の高速化、サンプル効率の向上など、大きな利点をもたらす可能性がある。
モデルマージは、追加のトレーニングを行うことなく、複数のタスク固有のモデルを単一のモデルに組み合わせるソリューションとして登場した。
既存のマージ手法は、しばしば異なるモデルのパラメータ間の干渉を無視し、複数のモデルのマージ時に大きなパフォーマンス低下を引き起こす。
本稿では,モデル統合における新たな3つのステップとして,微調整時に少量だけ変化したパラメータをリセットし,符号衝突を解消し,最終的な一致した符号に一致したパラメータのみをマージするTIES-Mergingを提案する。
論文 参考訳(メタデータ) (2023-06-02T17:31:32Z) - Learning from Images: Proactive Caching with Parallel Convolutional
Neural Networks [94.85780721466816]
本稿では,プロアクティブキャッシングのための新しいフレームワークを提案する。
モデルベースの最適化とデータ駆動技術を組み合わせて、最適化問題をグレースケールのイメージに変換する。
数値計算の結果,提案手法は71.6%の計算時間を0.8%のコストで削減できることがわかった。
論文 参考訳(メタデータ) (2021-08-15T21:32:47Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Artificial Intelligence Assisted Collaborative Edge Caching in Small
Cell Networks [19.605382256630538]
本稿では、エッジノードにおける異種キャッシュモデルを持つユーザの異種コンテンツ嗜好について考察する。
複雑な制約問題を妥当な時間で効率的に解決する修正粒子群最適化(M-PSO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T10:39:46Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。