論文の概要: Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving
- arxiv url: http://arxiv.org/abs/2602.24044v1
- Date: Fri, 27 Feb 2026 14:22:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.460254
- Title: Data Driven Optimization of GPU efficiency for Distributed LLM Adapter Serving
- Title(参考訳): 分散LLMアダプタサービングにおけるGPU効率のデータ駆動最適化
- Authors: Ferran Agullo, Joan Oliveras, Chen Wang, Alberto Gutierrez-Torre, Olivier Tardieu, Alaa Youssef, Jordi Torres, Josep Ll. Berral,
- Abstract要約: LLM(Large Language Model)アダプタは、低コストのモデル特殊化を可能にする。
LLMアダプタは、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの課題を導入する。
本稿では,最小GPU数でワークロードを処理するアダプタ配置を計算したデータ駆動パイプラインを提案する。
- 参考スコア(独自算出の注目度): 2.6336040306318274
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Model (LLM) adapters enable low-cost model specialization, but introduce complex caching and scheduling challenges in distributed serving systems where hundreds of adapters must be hosted concurrently. While prior work has largely focused on latency minimization, resource efficiency through throughput maximization remains underexplored. This paper presents a data-driven pipeline that, for a given workload, computes an adapter placement that serves the workload with the minimum number of GPUs while avoiding request starvation and GPU memory errors. To that end, the approach identifies the maximum feasible throughput attainable on each GPU by leveraging accurate performance predictions learned from real serving behavior. The proposed pipeline integrates three components: (i) a Digital Twin (DT) tailored to LLM-adapter serving, (ii) a distilled machine learning (ML) model trained on DT-generated data, and (iii) a greedy placement algorithm that exploits ML-based performance estimates to maximize GPU efficiency. The DT emulates real system dynamics with high fidelity, achieving below 5% throughput estimation error while executing up to 90 times faster than full LLM benchmarking across both predictable and unpredictable workloads. The learned ML models further accelerate performance estimation with marginal accuracy degradation, enabling scalable optimization. Experimental results demonstrate that the pipeline substantially improves GPU efficiency by reducing the number of GPUs required to sustain target workloads. Beyond GPU efficiency, the pipeline can be adapted to alternative objectives, such as latency minimization, highlighting its versatility for future large-scale LLM serving infrastructures.
- Abstract(参考訳): 大規模言語モデル(LLM)アダプタは、低コストのモデル特殊化を可能にするが、数百のアダプタを同時にホストしなければならない分散サービスシステムにおいて、複雑なキャッシュとスケジューリングの問題を導入する。
これまでの作業はレイテンシの最小化に重点を置いていたが、スループットの最大化によるリソース効率は未検討のままである。
本稿では、所定のワークロードに対して、要求飢餓やGPUメモリエラーを回避しつつ、最小数のGPUでワークロードを処理するアダプタ配置を演算するデータ駆動パイプラインを提案する。
そのために、実際のサービス動作から学んだ正確なパフォーマンス予測を活用することにより、各GPU上で実現可能な最大スループットを特定する。
提案されたパイプラインは3つのコンポーネントを統合している。
一 LLMアダプタに適合するデジタルツイン(DT)
二 DT生成データに基づいて学習した蒸留機械学習(ML)モデル及び
(iii)MLに基づく性能推定を利用してGPU効率を最大化する欲求配置アルゴリズム。
DTは、高い忠実度で実際のシステムダイナミクスをエミュレートし、5%以下のスループット推定エラーを達成すると同時に、予測不可能なワークロードと予測不能なワークロードの両方にわたって、完全なLLMベンチマークの実行を最大90倍高速に実行します。
学習したMLモデルは、限界精度の劣化によるパフォーマンス推定をさらに加速し、スケーラブルな最適化を可能にする。
実験の結果、パイプラインはターゲットワークロードの維持に必要なGPUの数を削減し、GPU効率を大幅に改善することが示された。
GPU効率以外にも、パイプラインはレイテンシの最小化などの代替目的に適応することができ、将来の大規模LLMサービスインフラストラクチャの汎用性を強調している。
関連論文リスト
- Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models [8.341777627286621]
大規模な言語モデルは、多くのAIタスクにおいて異常なパフォーマンスを示してきたが、ハイエンドGPUを必要とするため、トレーニング後にも使用するには高価である。
近年,PETALSと呼ばれる分散システムが開発され,複数のサーバにモデルブロックを分割し,ローエンドGPUをインターネット上に分散することで,LCMのデプロイ障壁を低くすることに成功した。
本稿では,分散LLM推論における資源配分問題に関する最初の体系的研究を行い,ブロック配置と要求ルーティングの2つの重要な決定に焦点をあてる。
論文 参考訳(メタデータ) (2025-12-26T06:13:59Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - A Data-driven ML Approach for Maximizing Performance in LLM-Adapter Serving [2.6336040306318274]
本研究では、飢餓を引き起こすことなくGPUスループットを最大化する並列アダプタと並列アダプタの結合構成を決定することに焦点を当てる。
このキャッシュ問題に対処するために、解釈可能なモデルを活用するデータ駆動型MLアプローチを提案する。
vLLMフレームワークとLoRAアダプタによる実験では、Digital Twinは実際の結果の5.1%以内のスループットを再現している。
論文 参考訳(メタデータ) (2025-08-11T10:47:35Z) - Forecasting LLM Inference Performance via Hardware-Agnostic Analytical Modeling [0.02091806248191979]
本稿では,演算子のモジュラー解析モデルからなる軽量でモジュラーな解析フレームワークLIFEを紹介する。
LIFEは、量子化、KVキャッシュ圧縮、LoRAアダプタ、チャンクされたプリフィル、異なる注意、演算子融合など、ソフトウェアとモデル最適化の影響を特徴づけている。
我々は,AMD CPU,NPU,iGPU,NVIDIA V100 GPUにおけるLIFEの予測をLlama2-7B変種を用いて検証した。
論文 参考訳(メタデータ) (2025-07-29T03:08:31Z) - NGPU-LM: GPU-Accelerated N-Gram Language Model for Context-Biasing in Greedy ASR Decoding [54.88765757043535]
この研究は、統計的なn-gram言語モデルのデータ構造を再考し、GPU最適化推論の高速かつ並列な操作を可能にする。
我々のアプローチは NGPU-LM と呼ばれ、7% 未満の計算オーバーヘッドを持つ全ての主要な ASR モデルに対して、カスタマイズ可能なgreedy decoding を導入している。
提案手法は,ビーム探索による顕著な遅延を回避しつつ,greedy と beam search の精度ギャップの50%以上を排除できる。
論文 参考訳(メタデータ) (2025-05-28T20:43:10Z) - Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。
そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。
スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文 参考訳(メタデータ) (2024-05-06T16:03:32Z) - PIM-Opt: Demystifying Distributed Optimization Algorithms on a Real-World Processing-In-Memory System [21.09681871279162]
大規模データセットに対するモダン機械学習(ML)トレーニングは、時間を要する作業量である。
最適化アルゴリズムであるGradient Descent (SGD) は、その効率性、単純さ、一般化性能に頼っている。
プロセッサ中心のアーキテクチャは、MLトレーニングワークロードの実行中に低パフォーマンスと高エネルギー消費に悩まされる。
Processing-In-Memory(PIM)は、データ移動のボトルネックを軽減するための有望なソリューションである。
論文 参考訳(メタデータ) (2024-04-10T17:00:04Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - Adaptive Elastic Training for Sparse Deep Learning on Heterogeneous
Multi-GPU Servers [65.60007071024629]
本稿では,Adaptive SGDが4つの最先端ソリューションよりも精度が高いことを示す。
本稿では,Adaptive SGDが時間と精度で4つの最先端ソリューションより優れていることを示す。
論文 参考訳(メタデータ) (2021-10-13T20:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。