論文の概要: LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure
- arxiv url: http://arxiv.org/abs/2511.07229v1
- Date: Mon, 10 Nov 2025 15:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.339242
- Title: LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure
- Title(参考訳): LLMServingSim2.0:LLMインフラストラクチャにおける不均一ハードウェアおよび実行技術のための統一シミュレータ
- Authors: Jaehong Cho, Hyunmin Choi, Jongse Park,
- Abstract要約: 本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。
1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明な問題であり、(2) 既存のシミュレータは、サービス技術の限られたサブセットしかサポートしていない。
- 参考スコア(独自算出の注目度): 4.382902234869111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LLMServingSim2.0, a system simulator designed for exploring heterogeneous hardware in large-scale LLM serving systems. LLMServingSim2.0 addresses two key limitations of its predecessor: (1) integrating hardware models into system-level simulators is non-trivial due to the lack of a clear abstraction, and (2) existing simulators support only a narrow subset of serving techniques, leaving no infrastructure that captures the breadth of approaches in modern LLM serving. To overcome these issues, LLMServingSim2.0 adopts trace-driven performance modeling, accompanied by an operator-level latency profiler, enabling the integration of new accelerators with a single command. It further embeds up-to-date serving techniques while exposing flexible interfaces for request routing, cache management, and scheduling policies. In a TPU case study, our profiler requires 18.5x fewer LoC and outperforms the predecessor's hardware-simulator integration, demonstrating LLMServingSim2.0's low-effort hardware extensibility. Our experiments further show that LLMServingSim2.0 reproduces GPU-based LLM serving with 1.9% error, while maintaining practical simulation time, making it a comprehensive platform for both hardware developers and LLM service providers.
- Abstract(参考訳): 本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。
LLMServingSim2.0は、(1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明なことである。
これらの問題を克服するため、LLMServingSim2.0は、オペレータレベルのレイテンシプロファイラを伴ってトレース駆動のパフォーマンスモデリングを採用し、新しいアクセラレータを単一のコマンドに統合することを可能にする。
さらに、リクエストルーティング、キャッシュ管理、スケジューリングポリシのためのフレキシブルなインターフェースを公開しながら、最新のサービステクニックを組み込む。
TPUのケーススタディでは、我々のプロファイラは18.5倍のLoCを必要とし、前任者のハードウェア-シミュレータ統合よりも優れており、LLMServingSim2.0の低精細なハードウェア拡張性を実証している。
LLMServingSim2.0はGPUベースのLLMを1.9%のエラーで再現し,実際のシミュレーション時間を維持し,ハードウェア開発者とLLMサービス提供者の両方にとって総合的なプラットフォームであることを示す。
関連論文リスト
- Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - LLM-I: LLMs are Naturally Interleaved Multimodal Creators [24.64752837827959]
LLM-Interleaved (LLM-I) は、ツールユース問題としてインターリーブド画像テキスト生成を再設計するフレキシブルで動的フレームワークである。
我々のフレームワークは、中央のLLMエージェントやMLLMエージェントに、特殊な視覚ツールの多種多様なツールキットをインテリジェントにオーケストレーションする権限を与えます。
LLM-Iは最先端のパフォーマンスを実証し、4つのベンチマークで既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-17T02:33:29Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation [13.326000659635378]
Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。
MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。
Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
論文 参考訳(メタデータ) (2025-05-02T22:36:24Z) - Elastic On-Device LLM Service [11.778868057819269]
我々は、フルLLMのモデルと寸法の両方を弾力化するデバイス上の大規模言語モデルサービスであるsysを提示する。
sysは、平均で14.83%、10.45%の精度で7つの強いベースラインを上回り、1%のTTFTスイッチオーバヘッド、オンパーメモリ消費、100のオフラインGPU時間を実現している。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale [17.00936774784349]
大規模言語モデル(LLM)サービスシステムにおいて、汎用的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
論文 参考訳(メタデータ) (2024-08-10T09:26:15Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。