論文の概要: LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure
- arxiv url: http://arxiv.org/abs/2511.07229v1
- Date: Mon, 10 Nov 2025 15:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.339242
- Title: LLMServingSim2.0: A Unified Simulator for Heterogeneous Hardware and Serving Techniques in LLM Infrastructure
- Title(参考訳): LLMServingSim2.0:LLMインフラストラクチャにおける不均一ハードウェアおよび実行技術のための統一シミュレータ
- Authors: Jaehong Cho, Hyunmin Choi, Jongse Park,
- Abstract要約: 本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。
1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明な問題であり、(2) 既存のシミュレータは、サービス技術の限られたサブセットしかサポートしていない。
- 参考スコア(独自算出の注目度): 4.382902234869111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces LLMServingSim2.0, a system simulator designed for exploring heterogeneous hardware in large-scale LLM serving systems. LLMServingSim2.0 addresses two key limitations of its predecessor: (1) integrating hardware models into system-level simulators is non-trivial due to the lack of a clear abstraction, and (2) existing simulators support only a narrow subset of serving techniques, leaving no infrastructure that captures the breadth of approaches in modern LLM serving. To overcome these issues, LLMServingSim2.0 adopts trace-driven performance modeling, accompanied by an operator-level latency profiler, enabling the integration of new accelerators with a single command. It further embeds up-to-date serving techniques while exposing flexible interfaces for request routing, cache management, and scheduling policies. In a TPU case study, our profiler requires 18.5x fewer LoC and outperforms the predecessor's hardware-simulator integration, demonstrating LLMServingSim2.0's low-effort hardware extensibility. Our experiments further show that LLMServingSim2.0 reproduces GPU-based LLM serving with 1.9% error, while maintaining practical simulation time, making it a comprehensive platform for both hardware developers and LLM service providers.
- Abstract(参考訳): 本稿では,大規模LLMサービスシステムにおける異種ハードウェアの探索を目的としたシステムシミュレータLLMServingSim2.0を紹介する。
LLMServingSim2.0は、(1) ハードウェアモデルをシステムレベルのシミュレータに統合することは、明確な抽象化が欠如していることから、非自明なことである。
これらの問題を克服するため、LLMServingSim2.0は、オペレータレベルのレイテンシプロファイラを伴ってトレース駆動のパフォーマンスモデリングを採用し、新しいアクセラレータを単一のコマンドに統合することを可能にする。
さらに、リクエストルーティング、キャッシュ管理、スケジューリングポリシのためのフレキシブルなインターフェースを公開しながら、最新のサービステクニックを組み込む。
TPUのケーススタディでは、我々のプロファイラは18.5倍のLoCを必要とし、前任者のハードウェア-シミュレータ統合よりも優れており、LLMServingSim2.0の低精細なハードウェア拡張性を実証している。
LLMServingSim2.0はGPUベースのLLMを1.9%のエラーで再現し,実際のシミュレーション時間を維持し,ハードウェア開発者とLLMサービス提供者の両方にとって総合的なプラットフォームであることを示す。
関連論文リスト
- LLMServingSim 2.0: A Unified Simulator for Heterogeneous and Disaggregated LLM Serving Infrastructure [4.1898448424363695]
インフラを提供する大規模言語モデル(LLM)は、異質性や非凝集性へとシフトしている。
本稿では,LLMServingSim 2.0について述べる。LLMServingSim 2.0は,ランタイム駆動のハードウェア-ソフトウェアインタラクションを明示的かつ解析可能なものにするシステムレベルのシミュレータである。
論文 参考訳(メタデータ) (2026-02-26T14:22:17Z) - Enabling Disaggregated Multi-Stage MLLM Inference via GPU-Internal Scheduling and Resource Sharing [16.063514680699576]
MLLM(Multimodal large language model)は、3段階のパイプラインを通して視覚的理解を拡張する。
マルチモーダル前処理、特にビデオデコードがタイム・ツー・ファースト・トーケン(TTFT)を支配している
我々は、エンドツーエンドのMLLMパイプラインを共同で最適化する2つの補完設計であるFlashCodecとUnifiedServeを紹介する。
論文 参考訳(メタデータ) (2025-12-19T13:40:13Z) - AIvailable: A Software-Defined Architecture for LLM-as-a-Service on Heterogeneous and Legacy GPUs [0.5863360388454261]
低コストで高可用性のLLM-as-a-Service(LLM)プラットフォームであるAIvailableを紹介します。
ソフトウェア定義のアプローチを使用して、異種およびレガシGPUノード上でLLMを実行する。
統合されたクライアントインターフェースを備えており、すべてのデプロイされたLLMとのシームレスなインタラクションを可能にします。
論文 参考訳(メタデータ) (2025-11-06T14:19:57Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - LLM-I: LLMs are Naturally Interleaved Multimodal Creators [24.64752837827959]
LLM-Interleaved (LLM-I) は、ツールユース問題としてインターリーブド画像テキスト生成を再設計するフレキシブルで動的フレームワークである。
我々のフレームワークは、中央のLLMエージェントやMLLMエージェントに、特殊な視覚ツールの多種多様なツールキットをインテリジェントにオーケストレーションする権限を与えます。
LLM-Iは最先端のパフォーマンスを実証し、4つのベンチマークで既存の手法をはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-17T02:33:29Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Phantora: Maximizing Code Reuse in Simulation-based Machine Learning System Performance Estimation [13.326000659635378]
Phantoraは、機械学習トレーニングワークロードのパフォーマンス見積のための、ハイブリッドGPUクラスタシミュレータである。
MLフレームワークのソースコードをシミュレーションで直接再利用することが可能で、再実装の必要がなくなる。
Phantoraは最先端のトレーニングフレームワークを3つサポートしている。
論文 参考訳(メタデータ) (2025-05-02T22:36:24Z) - Elastic On-Device LLM Service [11.778868057819269]
我々は、フルLLMのモデルと寸法の両方を弾力化するデバイス上の大規模言語モデルサービスであるsysを提示する。
sysは、平均で14.83%、10.45%の精度で7つの強いベースラインを上回り、1%のTTFTスイッチオーバヘッド、オンパーメモリ消費、100のオフラインGPU時間を実現している。
論文 参考訳(メタデータ) (2024-09-08T06:32:08Z) - LLMServingSim: A HW/SW Co-Simulation Infrastructure for LLM Inference Serving at Scale [17.00936774784349]
大規模言語モデル(LLM)サービスシステムにおいて、汎用的なハードウェア・ソフトウェア動作を正確にモデル化できるシミュレーション基盤が欠如している。
本稿では,LLMServingSimと呼ばれる効率的なシミュレーションツールを開発し,LCMサービスシステムにおける今後の研究を支援することを目的とする。
論文 参考訳(メタデータ) (2024-08-10T09:26:15Z) - Federated Fine-Tuning of LLMs on the Very Edge: The Good, the Bad, the Ugly [62.473245910234304]
本稿では,最新のエッジコンピューティングシステムにおいて,Large Language Modelsをどのように導入できるかを,ハードウェア中心のアプローチで検討する。
マイクロレベルのハードウェアベンチマークを行い、FLOPモデルと最先端のデータセンターGPUを比較し、現実的な条件下でのネットワーク利用について検討する。
論文 参考訳(メタデータ) (2023-10-04T20:27:20Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FederatedScope-LLM: A Comprehensive Package for Fine-tuning Large
Language Models in Federated Learning [70.38817963253034]
本稿では, ファインチューニング LLM のこれらの課題について論じ, 本パッケージ FS-LLM を主な貢献として紹介する。
我々は、FLシナリオにおける将来の拡張のために、包括的フェデレーションパラメータ効率の良い微調整アルゴリズムの実装と汎用プログラミングインタフェースを提供する。
本研究では, FS-LLM の有効性を検証し, FL 設定におけるパラメータ効率の高いパラメータ調整アルゴリズムを用いて, 高度な LLM のベンチマークを行う。
論文 参考訳(メタデータ) (2023-09-01T09:40:36Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - AWQ: Activation-aware Weight Quantization for LLM Compression and Acceleration [54.692405042065815]
LLM低ビット量のみの量子化のためのハードウェアフレンドリーなアプローチであるActivation-Aware Weight Quantization (AWQ)を提案する。
AWQ は 1% の正重みしか保護せず,命令調整型 LM とマルチモーダル LM の量子化性能に優れる。
また,4ビットオンデバイスLLM/VLMに適した,効率的なフレキシブルな推論フレームワークであるTinyChatを実装した。
論文 参考訳(メタデータ) (2023-06-01T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。