Fugu-MT 論文翻訳(概要): Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models

論文の概要: Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models

arxiv url: http://arxiv.org/abs/2512.21884v1
Date: Fri, 26 Dec 2025 06:13:59 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-29 20:48:42.036327
Title: Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models
Title（参考訳）: 大規模言語モデルによる地理的分散推論のための資源配分の最適化
Authors: Tingyang Sun, Ting He, Bo Ji, Parimal Parag,
Abstract要約: 大規模な言語モデルは、多くのAIタスクにおいて異常なパフォーマンスを示してきたが、ハイエンドGPUを必要とするため、トレーニング後にも使用するには高価である。近年,PETALSと呼ばれる分散システムが開発され,複数のサーバにモデルブロックを分割し,ローエンドGPUをインターネット上に分散することで,LCMのデプロイ障壁を低くすることに成功した。本稿では,分散LLM推論における資源配分問題に関する最初の体系的研究を行い,ブロック配置と要求ルーティングの2つの重要な決定に焦点をあてる。
参考スコア（独自算出の注目度）: 8.341777627286621
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have demonstrated extraordinary performance in many AI tasks but are expensive to use, even after training, due to their requirement of high-end GPUs. Recently, a distributed system called PETALS was developed to lower the barrier for deploying LLMs by splitting the model blocks across multiple servers with low-end GPUs distributed over the Internet, which was much faster than swapping the model parameters between the GPU memory and other cheaper but slower local storage media. However, the performance of such a distributed system critically depends on the resource allocation, and how to do so optimally remains unknown. In this work, we present the first systematic study of the resource allocation problem in distributed LLM inference, with focus on two important decisions: block placement and request routing. Our main results include: experimentally validated performance models that can predict the inference performance under given block placement and request routing decisions, a formulation of the offline optimization of block placement and request routing as a mixed integer linear programming problem together with the NP-hardness proof and a polynomial-complexity algorithm with guaranteed performance, and an adaptation of the offline algorithm for the online setting with the same performance guarantee under bounded load. Through both experiments and experimentally-validated simulations, we have verified that the proposed solution can substantially reduce the inference time compared to the state-of-the-art solution in diverse settings with geographically-distributed servers. As a byproduct, we have also developed a light-weighted CPU-only simulator capable of predicting the performance of distributed LLM inference on GPU servers, which can evaluate large deployments and facilitate future research for researchers with limited GPU access.
Abstract（参考訳）: 大規模な言語モデルは、多くのAIタスクにおいて異常なパフォーマンスを示してきたが、ハイエンドGPUを必要とするため、トレーニング後にも使用するには高価である。近年、PETALSと呼ばれる分散システムが開発され、複数のサーバでモデルブロックを分割し、インターネット上に分散したローエンドGPUを配置することで、LCMをデプロイする障壁を低くする。しかし、そのような分散システムの性能はリソース割り当てに大きく依存しており、どのように最適に行うかは未だ不明である。本研究では,分散LLM推論における資源配分問題に関する最初の体系的研究を行い,ブロック配置と要求ルーティングの2つの重要な決定に焦点をあてる。本研究の主な成果は,与えられたブロック配置および要求ルーティング決定の下での推論性能を予測できる性能モデル,NP完全性証明と多項式複雑性アルゴリズムとともに,ブロック配置と要求ルーティングのオフライン最適化を混合整数線形プログラミング問題として定式化すること,および同じ性能保証のオンライン設定に対するオフラインアルゴリズムの適用である。実験と実験で検証したシミュレーションにより,提案手法は地理的に分散したサーバの多様な設定において,最先端のソリューションに比べて推論時間を著しく短縮できることを確認した。副産物として、GPUサーバ上での分散LLM推論の性能を予測し、大規模なデプロイメントを評価し、GPUアクセスに制限のある研究者の今後の研究を促進する軽量CPU専用シミュレータを開発した。

関連論文リスト

Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving [2.6336040306318274]
LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。 LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
論文参考訳（メタデータ） (2026-02-27T14:22:51Z)
Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。 BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文参考訳（メタデータ） (2025-11-04T01:15:44Z)
Collaborative Large Language Model Inference via Resource-Aware Parallel Speculative Decoding [6.130486652666936]
投機的復号化は、モバイルデバイスの軽量ドラフトモデルとエッジサーバの強力なターゲットモデルとの間にトークン生成を分割することで、有望なソリューションを提供する。本稿では,効率的な並列投機的復号化を支援するために,ユーザアソシエーションとリソースアロケーションを協調的に最適化する統合フレームワークを初めて提案する。その結果,提案手法は推定精度を損なうことなく,最大28.0%,平均23.7%のレイテンシ削減を実現していることがわかった。
論文参考訳（メタデータ） (2025-11-03T16:04:44Z)
CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文参考訳（メタデータ） (2025-08-15T07:49:22Z)
Efficient Split Federated Learning for Large Language Models over Communication Networks [45.02252893286613]
分散方式で訓練済みの大規模言語モデル(LLM)を微調整することで、リソース制約のあるエッジネットワークにおいて大きな課題が生じる。本稿では,分割フェデレーション学習とパラメータ効率のよい微調整技術を統合する新しいフレームワークであるSflLLMを提案する。モデル分割とローランク適応(LoRA)を活用することにより、SflLLMはエッジデバイスの計算負担を軽減する。
論文参考訳（メタデータ） (2025-04-20T16:16:54Z)
MoE-Lens: Towards the Hardware Limit of High-Throughput MoE LLM Serving Under Resource Constraints [7.287566040274871]
MoE-Lensは、リソース制約のある環境に対する総合的なパフォーマンスモデリングによって設計された推論システムである。システム実行メカニズムをキャプチャして、重要なハードウェアボトルネックを特定し、達成可能なスループットを正確に予測します。多様なMoEモデルとデータセットに基づいて評価され、MoE-Lensは最先端のソリューションを平均で4.6倍(最大25.5倍)上回る。
論文参考訳（メタデータ） (2025-04-12T21:26:56Z)
MobiZO: Enabling Efficient LLM Fine-Tuning at the Edge via Inference Engines [28.18421624702502]
本稿では,大規模言語モデル(LLM)のための資源効率の高い微調整フレームワークであるMobiZOを紹介する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅な高速化とメモリ節約を実現する。 MobiZOは、微調整精度を向上しつつ、実行時の大幅なスピードアップとメモリ節約を実現している。
論文参考訳（メタデータ） (2024-09-23T20:14:09Z)
DiffSG: A Generative Solver for Network Optimization with Diffusion Model [75.27274046562806]
生成拡散モデルは、様々なクロスドメインアプリケーションで人気がある。これらのモデルは複雑なネットワーク最適化問題に対処する上で有望である。本稿では拡散モデルに基づく解生成という,拡散モデル生成のための新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-13T07:56:21Z)
Distributed Inference and Fine-tuning of Large Language Models Over The Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文参考訳（メタデータ） (2023-12-13T18:52:49Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Multi-Resource Allocation for On-Device Distributed Federated Learning Systems [79.02994855744848]
本研究は,デバイス上の分散フェデレーション学習(FL)システムにおいて,レイテンシとエネルギー消費の重み付け和を最小化する分散マルチリソース割り当て方式を提案する。システム内の各モバイルデバイスは、指定された領域内でモデルトレーニングプロセスを実行し、それぞれパラメータの導出とアップロードを行うための計算と通信資源を割り当てる。
論文参考訳（メタデータ） (2022-11-01T14:16:05Z)
DistIR: An Intermediate Representation and Simulator for Efficient Neural Network Distribution [15.086401550425125]
DistIRは分散計算のための表現であり、効率的な解析のために調整されている。本研究では、DistIRとそのシミュレータが1000以上の構成にまたがる複雑な分散空間を高速にグリッドで探索する方法を示す。
論文参考訳（メタデータ） (2021-11-09T21:32:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。