論文の概要: LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure
- arxiv url: http://arxiv.org/abs/2602.23036v1
- Date: Thu, 26 Feb 2026 14:22:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.71841
- Title: LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure
- Title(参考訳): LLMServingSim 2.0:不均一・非凝集型LDMサービングインフラストラクチャのための統一シミュレータ
- Authors: Jaehong Cho, Hyunmin Choi, Guseul Heo, Jongse Park,
- Abstract要約: インフラを提供する大規模言語モデル(LLM)は、異質性や非凝集性へとシフトしている。
本稿では,LLMServingSim 2.0について述べる。LLMServingSim 2.0は,ランタイム駆動のハードウェア-ソフトウェアインタラクションを明示的かつ解析可能なものにするシステムレベルのシミュレータである。
- 参考スコア(独自算出の注目度): 4.1898448424363695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) serving infrastructures are undergoing a shift toward heterogeneity and disaggregation. Modern deployments increasingly integrate diverse accelerators and near-memory processing technologies, introducing significant hardware heterogeneity, while system software increasingly separates computation, memory, and model components across distributed resources to improve scalability and efficiency. As a result, LLM serving performance is no longer determined by hardware or software choices in isolation, but by their runtime interaction through scheduling, data movement, and interconnect behavior. However, understanding these interactions remains challenging, as existing simulators lack the ability to jointly model heterogeneous hardware and disaggregated serving techniques within a unified, runtime-driven framework. This paper presents LLMServingSim 2.0, a unified system-level simulator designed to make runtime-driven hardware-software interactions in heterogeneous and disaggregated LLM serving infrastructures explicit and analyzable. LLMServingSim 2.0 embeds serving decisions and hardware behavior into a single runtime loop, enabling interaction-aware modeling of batching, routing, offloading, memory, and power. The simulator supports extensible integration of emerging accelerators and memory systems through profile-based modeling, while capturing dynamic serving behavior and system-level effects. We validate LLMServingSim 2.0 against real deployments, showing that it reproduces key performance, memory, and power metrics with an average error of 0.97%, while maintaining simulation times of around 10 minutes even for complex configurations. These results demonstrate that LLMServingSim 2.0 provides a practical bridge between hardware innovation and serving-system design, enabling systematic exploration and co-design for next-generation LLM serving infrastructures.
- Abstract(参考訳): インフラを提供する大規模言語モデル(LLM)は、異質性や非凝集性へとシフトしている。
現代のデプロイメントは、多様なアクセラレータとニアメモリ処理技術を統合し、ハードウェアの不均一性を著しく導入する一方で、システムソフトウェアは、分散リソース間で計算、メモリ、モデルコンポーネントを分離し、スケーラビリティと効率を向上させる。
結果として、LCMのパフォーマンスは、ハードウェアやソフトウェアによって独立して決定されるのではなく、スケジューリング、データ移動、相互接続による実行時の相互作用によって決定される。
しかし、既存のシミュレータには異種ハードウェアを共同でモデル化する能力がなく、統一されたランタイム駆動のフレームワーク内でサーブテクニックを分解する能力がないため、これらの相互作用を理解することは依然として困難である。
本稿では,システムレベルの統一シミュレータLLMServingSim 2.0について述べる。
LLMServingSim 2.0は、サービス決定とハードウェア動作を単一のランタイムループに組み込み、バッチ処理、ルーティング、オフロード、メモリ、電力のインタラクション対応モデリングを可能にする。
このシミュレータは、動的なサービス動作とシステムレベルの効果をキャプチャしながら、プロファイルベースのモデリングを通じて、新興アクセラレータとメモリシステムの拡張可能な統合をサポートする。
我々はLLMServingSim 2.0を実際のデプロイメントに対して検証し、重要なパフォーマンス、メモリ、パワーメトリクスを平均0.97%のエラーで再現し、複雑な構成であってもシミュレーション時間を約10分維持することを示した。
これらの結果は,LLMServingSim 2.0がハードウェア革新とサービスシステム設計の実践的な橋渡しを提供し,次世代LLMサービス基盤の体系的な探索と共同設計を可能にすることを実証している。
関連論文リスト
- LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure [4.382902234869111]
本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。
1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明な問題であり、(2) 既存のシミュレータは、サービス技術の限られたサブセットしかサポートしていない。
論文 参考訳(メタデータ) (2025-11-10T15:47:53Z) - CollaPipe: Adaptive Segment-Optimized Pipeline Parallelism for Collaborative LLM Training in Heterogeneous Edge Networks [57.95170323315603]
CollaPipeは、コラボレーティブパイプライン並列性とフェデレーションアグリゲーションを統合し、自己進化型ネットワークをサポートする分散学習フレームワークである。
CollaPipeでは、エンコーダ部分は可変サイズのセグメントに適応的に分割され、パイプライン並列トレーニングのためにモバイルデバイスにデプロイされ、デコーダは生成タスクを処理するためにエッジサーバにデプロイされる。
トレーニング効率を向上させるために,モデルセグメント,マイクロバッチ,帯域幅,送信電力を適応的に割り当てる共同最適化問題を定式化する。
論文 参考訳(メタデータ) (2025-09-24T07:54:01Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - AutoHete: An Automatic and Efficient Heterogeneous Training System for LLMs [68.99086112477565]
トランスフォーマーベースの大規模言語モデル(LLM)は、シーケンスモデリングやテキスト生成において例外的な機能を示した。
既存の異種トレーニング手法は、トレーニング可能なモデルの規模を大幅に拡大するが、かなりの通信オーバーヘッドとCPUワークロードを導入している。
本稿では,シングルGPU環境とマルチGPU環境の両方に互換性のある,自動的で効率的なヘテロジニアストレーニングシステムであるAutoHeteを提案する。
論文 参考訳(メタデータ) (2025-02-27T14:46:22Z) - Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。
中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。
GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文 参考訳(メタデータ) (2024-12-24T02:27:44Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale [17.00936774784349]
大規模言語モデル(LLM)サービスシステムにおいて、汎用的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
論文 参考訳(メタデータ) (2024-08-10T09:26:15Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。