論文の概要: Frontier: Towards Comprehensive and Accurate LLM Inference Simulation
- arxiv url: http://arxiv.org/abs/2605.21312v1
- Date: Wed, 20 May 2026 15:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.760034
- Title: Frontier: Towards Comprehensive and Accurate LLM Inference Simulation
- Title(参考訳): Frontier: 総合的かつ正確なLLM推論シミュレーションを目指して
- Authors: Yicheng Feng, Xin Tan, Yangtao Deng, Yimin Jiang, Yibo Zhu, Hong Xu,
- Abstract要約: 本稿では,現代のLLM推論サービスのための離散イベントシミュレータであるFrontierを紹介する。
これは、コロケーション、プリフィル・デコード・デアグリゲーション(PDD)、アテンション・FFN・デアグリゲーション(AFD)をモデル化することで、現代のサービスシステムの構造ダイナミクスを捉える。
16-H800 GPUテストベッドでは、Frontierは4%未満の平均エラーを達成した。最先端のシミュレータと比較すると、コロケーション時のエンドツーエンドのレイテンシエラーは44.9%から6.4%に減少し、デアグリゲーション時の52.6%に低下する。
- 参考スコア(独自算出の注目度): 15.58999342618182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern LLM serving is no longer homogeneous or monolithic. Production systems now combine disaggregated execution, complex parallelism, runtime optimizations, and stateful workloads such as reasoning, agents, and RL rollouts. Simulation is attractive for exploring this growing design space, yet existing simulators lack the architectural completeness and decision-grade fidelity it demands. Their monolithic-replica abstractions are ill-suited to disaggregated serving, while average-case analytical proxies can distort SLA predictions and even reverse optimization conclusions. We present Frontier, a discrete-event simulator for modern LLM inference serving. Frontier features a disaggregated abstraction. It captures the structure and dynamics of modern serving systems by modeling co-location, Prefill-Decode Disaggregation (PDD), and Attention-FFN Disaggregation (AFD) with role-specific cluster workers, incorporating key runtime optimizations (e.g., CUDA Graphs, speculative decoding) within the scheduler-batch-engine loop, and supporting stateful requests for emerging workloads. It further provides accurate and generalizable predictions of computation, communication, and memory costs across diverse serving scenarios with complex workload compositions. On 16-H800 GPU testbed, Frontier achieves an average throughput error below 4%. Compared with state-of-the-art simulators, it reduces end-to-end latency error from 44.9% to 6.4% under co-location and from 51.7% to 2.6% under disaggregation. It scales to over 1K GPUs on commodity CPUs and enables new use cases such as SLA-dependent Pareto frontier exploration, heterogeneous disaggregated allocation, agentic reasoning scheduling validation, and RL post-training reconfiguration.
- Abstract(参考訳): 現代のLLMは、もはや均質でもモノリシックでもない。
プロダクションシステムは、分散実行、複雑な並列処理、ランタイム最適化、推論、エージェント、RLロールアウトといったステートフルなワークロードを組み合わせる。
シミュレーションは、この成長するデザイン空間を探索するのに魅力的なものだが、既存のシミュレータは、要求されるアーキテクチャの完全性と決定グレードの忠実さを欠いている。
それらのモノリシック-レプリカの抽象化は、分離されたサービスに不適であり、平均ケース分析プロキシはSLA予測を歪ませたり、最適化の結論を逆転させることもできる。
本稿では,現代のLLM推論サービスのための離散イベントシミュレータであるFrontierを紹介する。
Frontierは非集約的な抽象化を備えている。
ロール固有のクラスタワーカーとのコロケーション、Prefill-Decode Disaggregation(PDD)、Attention-FFN Disaggregation(AFD)をモデル化し、スケジューラ-バッチ-エンジンループ内に主要なランタイム最適化(CUDAグラフ、投機的デコーディング)を組み込むことで、現代的なサービスシステムの構造とダイナミクスをキャプチャし、新興ワークロードに対するステートフルな要求をサポートする。
さらに、計算、通信、メモリコストの正確で一般化可能な予測を、複雑なワークロード構成を持つさまざまなサービスシナリオにまたがって提供する。
16-H800 GPUテストベッドでは、Frontierは平均スループットエラーを4%以下で達成している。
最先端シミュレータと比較して、エンドツーエンドのレイテンシエラーを44.9%から6.4%に減らし、コロケーションでは51.7%から2.6%に減らした。
これは、コモディティCPU上で1K以上のGPUにスケールし、SLA依存のParetoフロンティア探索、異種分離アロケーション、エージェント推論スケジューリングのバリデーション、RLポストトレーニング再構成などの新しいユースケースを可能にする。
関連論文リスト
- Chimera: Latency- and Performance-Aware Multi-agent Serving for Heterogeneous LLMs [62.17306142810532]
ヘテロジニアスLSMクラスタ上で動作するマルチエージェントワークフローの予測スケジューリングシステムであるChimeraを提案する。
Chimeは最高のレイテンシをトレースし、エンドツーエンドのレイテンシを1.2-2.4$times$で削減し、タスクパフォーマンスを平均8.0-9.5ポイント改善する。
論文 参考訳(メタデータ) (2026-03-23T17:01:42Z) - It Takes Two to Tango: A Holistic Simulator for Joint Order Scheduling and Multi-Agent Path Finding in Robotic Warehouses [18.101514832695067]
WareRoverはOSとMAPFの動的結合を強制する総合シミュレーションプラットフォームである。
標準ベンチマークとは異なり、WareRoverは順序ストリーム、物理を意識した動作制約、非線形回復機構を単一の評価ループに統合する。
論文 参考訳(メタデータ) (2026-02-15T05:51:58Z) - Optimizing Resource Allocation for Geographically-Distributed Inference by Large Language Models [8.341777627286621]
大規模な言語モデルは、多くのAIタスクにおいて異常なパフォーマンスを示してきたが、ハイエンドGPUを必要とするため、トレーニング後にも使用するには高価である。
近年,PETALSと呼ばれる分散システムが開発され,複数のサーバにモデルブロックを分割し,ローエンドGPUをインターネット上に分散することで,LCMのデプロイ障壁を低くすることに成功した。
本稿では,分散LLM推論における資源配分問題に関する最初の体系的研究を行い,ブロック配置と要求ルーティングの2つの重要な決定に焦点をあてる。
論文 参考訳(メタデータ) (2025-12-26T06:13:59Z) - AReaL-Hex: Accommodating Asynchronous RL Training over Heterogeneous GPUs [24.96730768606278]
異種対応非同期RLトレーニングシステムであるAReaL-Hexを提案する。
ヘテロジニアスGPU上でロールアウト生成とポリシモデルのトレーニングを実行する方法を、効果的にスケジュールする。
最大1.50倍のトレーニングスループットと1.46倍のトレーニングコストの削減を提供する。
論文 参考訳(メタデータ) (2025-11-02T04:17:30Z) - PT$^2$-LLM: Post-Training Ternarization for Large Language Models [52.4629647715623]
大きな言語モデル(LLM)は、様々なタスクにまたがる印象的な機能を示しているが、その大きなメモリと計算能力は、デプロイメントを妨げている。
PT$2$-LLMを提案する。
その中核は2段精製パイプラインを備えた非対称3次量子化器である。
論文 参考訳(メタデータ) (2025-09-27T03:01:48Z) - STADI: Fine-Grained Step-Patch Diffusion Parallelism for Heterogeneous GPUs [14.137795556562686]
本稿では,拡散モデル推論を高速化する新しいフレームワークであるspatio-Temporal Adaptive Diffusion Inference (STADI)を紹介する。
コアとなるハイブリッドスケジューラは、時間次元と空間次元の両方にわたってきめ細かい並列性をオーケストレーションする。
提案手法は,エンド・ツー・エンドの推論遅延を最大45%削減し,異種GPUの資源利用を著しく改善する。
論文 参考訳(メタデータ) (2025-09-05T00:25:40Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - Decentralized Nonconvex Composite Federated Learning with Gradient Tracking and Momentum [78.27945336558987]
分散サーバ(DFL)はクライアント・クライアント・アーキテクチャへの依存をなくす。
非滑らかな正規化はしばしば機械学習タスクに組み込まれる。
本稿では,これらの問題を解決する新しいDNCFLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-04-17T08:32:25Z) - The Power of Resets in Online Reinforcement Learning [73.64852266145387]
ローカルシミュレータアクセス(あるいはローカルプランニング)を用いたオンライン強化学習を通してシミュレータのパワーを探求する。
カバー性が低いMPPは,Qstar$-realizabilityのみのサンプル効率で学習可能であることを示す。
ローカルシミュレーターアクセス下では, 悪名高いExogenous Block MDP問題が抽出可能であることを示す。
論文 参考訳(メタデータ) (2024-04-23T18:09:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。