論文の概要: HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network
- arxiv url: http://arxiv.org/abs/2601.11676v1
- Date: Fri, 16 Jan 2026 07:37:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.27627
- Title: HALO: Semantic-Aware Distributed LLM Inference in Lossy Edge Network
- Title(参考訳): HALO:ロッシーエッジネットワークにおける意味認識型分散LLM推論
- Authors: Peirong Zheng, Wenchao Xu, Haozhao Wang, Jinyu Chen, Xuemin Shen,
- Abstract要約: エッジでの大規模言語モデル(LLM)推論は、ユーザのプライバシを保護すると同時に、サービスの応答性を促進する。
損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
- 参考スコア(独自算出の注目度): 50.33808558714122
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The deployment of large language models' (LLMs) inference at the edge can facilitate prompt service responsiveness while protecting user privacy. However, it is critically challenged by the resource constraints of a single edge node. Distributed inference has emerged to aggregate and leverage computational resources across multiple devices. Yet, existing methods typically require strict synchronization, which is often infeasible due to the unreliable network conditions. In this paper, we propose HALO, a novel framework that can boost the distributed LLM inference in lossy edge network. The core idea is to enable a relaxed yet effective synchronization by strategically allocating less critical neuron groups to unstable devices, thus avoiding the excessive waiting time incurred by delayed packets. HALO introduces three key mechanisms: (1) a semantic-aware predictor to assess the significance of neuron groups prior to activation. (2) a parallel execution scheme of neuron group loading during the model inference. (3) a load-balancing scheduler that efficiently orchestrates multiple devices with heterogeneous resources. Experimental results from a Raspberry Pi cluster demonstrate that HALO achieves a 3.41x end-to-end speedup for LLaMA-series LLMs under unreliable network conditions. It maintains performance comparable to optimal conditions and significantly outperforms the state-of-the-art in various scenarios.
- Abstract(参考訳): エッジに大規模言語モデル(LLM)の推論を配置することで、ユーザのプライバシを保護すると同時に、サービスの応答性を促進することができる。
しかし、これは単一のエッジノードのリソース制約によって批判的に挑戦される。
分散推論が登場し、複数のデバイスにまたがる計算リソースを集約し、活用している。
しかし、既存の手法では一般に厳密な同期が必要であり、信頼できないネットワーク条件のためにしばしば実現不可能である。
本稿では,損失エッジネットワークにおける分散LLM推論を向上する新しいフレームワークであるHALOを提案する。
中心となる考え方は、低臨界ニューロン群を不安定なデバイスに戦略的に割り当て、遅延パケットによって引き起こされる過度の待ち時間を回避することで、緩やかで効果的な同期を可能にすることである。
HALOは、(1)活性化前のニューロン群の意義を評価する意味認識予測器である。
2) モデル推論におけるニューロン群負荷の並列実行方式について検討した。
(3) 異種資源で複数のデバイスを効率的にオーケストレーションする負荷分散スケジューラ。
Raspberry Piクラスタによる実験の結果、HALOは信頼性の低いネットワーク条件下でLLaMAシリーズLLMの3.41倍のエンドツーエンドのスピードアップを達成した。
最適な条件に匹敵するパフォーマンスを維持し、様々なシナリオで最先端の性能を大幅に上回る。
関連論文リスト
- Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding [6.130486652666936]
投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。
本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。
その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-03T16:04:44Z) - GLASS: Test-Time Acceleration for LLMs via Global-Local Neural Importance Aggregation [12.921040231832082]
A/I-GLASS: Activation- and Impact-based Global-Local Neural importance aggregate for feed-forward network SparSification。
複数のLarge Language Models (LLM) とベンチマークによる実証的な結果から、GLASSは事前のトレーニング不要な手法よりも大幅に優れていたことが示されている。
論文 参考訳(メタデータ) (2025-08-19T22:50:20Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - ReinDSplit: Reinforced Dynamic Split Learning for Pest Recognition in Precision Agriculture [13.00865517063611]
我々はReinDSplitを紹介した。ReinDSplitは強化学習フレームワークで、各デバイスに対してスプリットポイントを動的に調整する。
Qラーニングエージェントは適応オーケストレータとして機能し、ワークロードとデバイス間のレイテンシしきい値のバランスをとる。
ResNet18, GoogleNet, MobileNetV2の3種類の昆虫分類データセットを用いてReinDSplitを評価する。
論文 参考訳(メタデータ) (2025-06-16T19:18:56Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Split Learning in Computer Vision for Semantic Segmentation Delay Minimization [25.0679083637967]
分割学習(SL)を用いたセマンティックセグメンテーションにおける推論遅延を最小化する新しい手法を提案する。
SLはリソース制約のあるデバイスのためのリアルタイムコンピュータビジョン(CV)アプリケーションのニーズに合わせて調整されている。
論文 参考訳(メタデータ) (2024-12-18T19:07:25Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Design and Prototyping Distributed CNN Inference Acceleration in Edge
Computing [85.74517957717363]
HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。
実験により、分散推論HALPはVGG-16に対して1.7倍の推論加速を達成することが示された。
分散推論HALPを用いたモデル選択は,サービスの信頼性を著しく向上させることができる。
論文 参考訳(メタデータ) (2022-11-24T19:48:30Z) - Predictive GAN-powered Multi-Objective Optimization for Hybrid Federated
Split Learning [56.125720497163684]
無線ネットワークにおけるハイブリッド・フェデレーション・スプリット・ラーニング・フレームワークを提案する。
ラベル共有のないモデル分割のための並列計算方式を設計し,提案方式が収束速度に与える影響を理論的に解析する。
論文 参考訳(メタデータ) (2022-09-02T10:29:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。