論文の概要: CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems
- arxiv url: http://arxiv.org/abs/2508.11287v1
- Date: Fri, 15 Aug 2025 07:49:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.789453
- Title: CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems
- Title(参考訳): CSGO:無線協調エッジLLMシステムにおけるコールドスタートの一般化最適化
- Authors: Xuran Liu, Nan Xue, Rui Bao, Yaping Sun, Zhiyong Chen, Meixia Tao, Xiaodong Xu, Shuguang Cui,
- Abstract要約: 本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
- 参考スコア(独自算出の注目度): 62.24576366776727
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While deploying large language models on edge devices promises low-latency and privacy-preserving AI services, it is hindered by limited device resources. Although pipeline parallelism facilitates distributed inference, existing approaches often ignore the cold-start latency caused by on-demand model loading. In this paper, we propose a latency-aware scheduling framework that overlaps model loading with computation and communication to minimize total inference latency. Based on device and model parameters, the framework dynamically adjusts layer partitioning and allocation to effectively hide loading time, thereby eliminating as many idle periods as possible. We formulate the problem as a Mixed-Integer Non-Linear Program and design an efficient dynamic programming algorithm to optimize model partitioning and device assignment. Experimental results show that the proposed method significantly reduces cold-start latency compared to baseline strategies.
- Abstract(参考訳): エッジデバイスに大規模な言語モデルをデプロイすることは、低レイテンシとプライバシ保護のAIサービスを保証しますが、デバイスリソースの制限によって妨げられます。
パイプラインの並列処理は分散推論を促進するが、既存のアプローチではオンデマンドモデルロードによるコールドスタート遅延を無視することが多い。
本稿では,モデルロードと計算と通信の重なり合い,全体の推論遅延を最小化する遅延対応スケジューリングフレームワークを提案する。
デバイスパラメータとモデルパラメータに基づいて、動的にレイヤパーティショニングとアロケーションを調整し、ロード時間を効果的に隠蔽する。
混合整数非線形プログラムとして問題を定式化し、モデル分割とデバイス割り当てを最適化する効率的な動的プログラムアルゴリズムを設計する。
実験結果から,提案手法はベースライン戦略に比べてコールドスタート遅延を著しく低減することがわかった。
関連論文リスト
- Adaptive Deadline and Batch Layered Synchronized Federated Learning [66.93447103966439]
フェデレートラーニング(FL)は、データプライバシを保持しながら、分散エッジデバイス間で協調的なモデルトレーニングを可能にする。
我々は,レイヤワイドアグリゲーションのために,ラウンド単位の期限とユーザ固有のバッチサイズを共同で最適化する新しいフレームワークADEL-FLを提案する。
論文 参考訳(メタデータ) (2025-05-29T19:59:18Z) - Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。
リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。
本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-22T05:27:24Z) - Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。
SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文 参考訳(メタデータ) (2024-12-18T19:07:25Z) - Gradient Sparsification for Efficient Wireless Federated Learning with
Differential Privacy [25.763777765222358]
フェデレートラーニング(FL)により、分散クライアントは、生データを互いに共有することなく、機械学習モデルを協調的にトレーニングできる。
モデルのサイズが大きくなるにつれて、送信帯域の制限によるトレーニングのレイテンシが低下し、個人情報が劣化すると同時に、差分プライバシ(DP)保護を使用する。
我々は、収束性能を犠牲にすることなく、トレーニング効率を向上させるために、FLフレームワーク無線チャネルのスペース化を提案する。
論文 参考訳(メタデータ) (2023-04-09T05:21:15Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z) - Architecture Aware Latency Constrained Sparse Neural Networks [35.50683537052815]
本稿では,CNNモデルの作成と高速化を目的として,遅延制約付きスパースフレームワークを設計する。
また,効率的な計算のための新しいスパース畳み込みアルゴリズムを提案する。
我々のシステム・アルゴリズムの共同設計フレームワークは、リソース制約のあるモバイルデバイス上でのネットワークの精度とレイテンシのフロンティアをはるかに向上させることができる。
論文 参考訳(メタデータ) (2021-09-01T03:41:31Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。