論文の概要: Frontier: Simulating the Next Generation of LLM Inference Systems
- arxiv url: http://arxiv.org/abs/2508.03148v1
- Date: Tue, 05 Aug 2025 06:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.82259
- Title: Frontier: Simulating the Next Generation of LLM Inference Systems
- Title(参考訳): Frontier:次世代LLM推論システムのシミュレーション
- Authors: Yicheng Feng, Xin Tan, Kin Hang Sew, Yimin Jiang, Yibo Zhu, Hong Xu,
- Abstract要約: 私たちはFrontierを紹介します。Frontierは、この新しい風景のためにゼロから設計された高忠実度シミュレータです。
同時に配置されたシステムと分離されたシステムの両方をモデル化するための統一されたフレームワークを導入している。
これにより、クラスタ間のエキスパートルーティングや、遅延隠蔽のための高度なパイプライン戦略といった複雑なシミュレーションが可能になる。
- 参考スコア(独自算出の注目度): 15.564923730320459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) inference is growing increasingly complex with the rise of Mixture-of-Experts (MoE) models and disaggregated architectures that decouple components like prefill/decode (PD) or attention/FFN (AF) for heterogeneous scaling. Existing simulators, architected for co-located, dense models, are unable to capture the intricate system dynamics of these emerging paradigms. We present Frontier, a high-fidelity simulator designed from the ground up for this new landscape. Frontier introduces a unified framework to model both co-located and disaggregated systems, providing native support for MoE inference with expert parallelism (EP). It enables the simulation of complex workflows like cross-cluster expert routing and advanced pipelining strategies for latency hiding. To ensure fidelity and usability, Frontier incorporates refined operator models for improved accuracy. Frontier empowers the community to design and optimize the future of LLM inference at scale.
- Abstract(参考訳): 大規模言語モデル(LLM)推論は、不均一なスケーリングのためにプリフィル/デコード(PD)やアテンション/FFN(AF)といったコンポーネントを分離するMixture-of-Experts(MoE)モデルと分離アーキテクチャの台頭とともに、ますます複雑化している。
既存のシミュレーターは、同一位置で密度の高いモデルのために設計されており、これらの新興パラダイムの複雑なシステムのダイナミクスを捉えることはできない。
私たちはFrontierを紹介します。Frontierは、この新しい風景のためにゼロから設計された高忠実度シミュレータです。
Frontierは、並列性(EP)を備えたMoE推論のネイティブサポートを提供する、コロケーションと非集約システムの両方をモデル化するための統一されたフレームワークを導入した。
これにより、クラスタ間のエキスパートルーティングや、遅延隠蔽のための高度なパイプライン戦略といった複雑なワークフローのシミュレーションが可能になる。
忠実さとユーザビリティを確保するために、Frontierは精度を向上させるために洗練された演算子モデルを組み込んでいる。
Frontierは、LLM推論を大規模に設計し、最適化するコミュニティに力を与える。
関連論文リスト
- Modular Delta Merging with Orthogonal Constraints: A Scalable Framework for Continual and Reversible Model Composition [0.0]
既存のモデルマージと継続的学習へのアプローチは、しばしばタスクの干渉、破滅的な忘れ込み、あるいは可逆性の欠如に悩まされる。
本稿では, 拡張性, 干渉フリー, 微調整モデルの構成が可能な新しいフレームワークである Orthogonal Constraints (MDM-OC) を用いた Modular Delta Merging を提案する。
論文 参考訳(メタデータ) (2025-07-28T17:08:49Z) - Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers [0.0]
Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
論文 参考訳(メタデータ) (2025-07-01T09:33:38Z) - FUDOKI: Discrete Flow-based Unified Understanding and Generation via Kinetic-Optimal Velocities [76.46448367752944]
MLLM(Multimodal large language model)は、単一のフレームワーク内で視覚的理解と画像生成を統一する言語である。
ほとんどの既存のMLLMはAutore(AR)アーキテクチャに依存しており、将来の開発に固有の制限を課している。
本稿では,離散フローマッチングに基づく統一マルチモーダルモデルであるFUDOKIを紹介する。
論文 参考訳(メタデータ) (2025-05-26T15:46:53Z) - Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。
HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。
我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文 参考訳(メタデータ) (2025-04-14T00:29:49Z) - Linear-MoE: Linear Sequence Modeling Meets Mixture-of-Experts [18.92161797766718]
我々は,LSMとMoEを統合する大規模モデルのモデリングとトレーニングを行う,生産レベルのシステムであるLinear-MoEを紹介する。
1)LSMのすべてのインスタンスをサポートする統一されたフレームワークを提供するモデリングサブシステムと,2)様々な高度な並列処理技術を組み込んだ効率的なトレーニングを支援するトレーニングサブシステムとから構成される。
論文 参考訳(メタデータ) (2025-03-07T14:17:45Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。
当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。
Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文 参考訳(メタデータ) (2024-10-24T19:48:51Z) - Enhanced Structured State Space Models via Grouped FIR Filtering and Attention Sink Mechanisms [0.6718184400443239]
本稿では,A-乗算を複数のグループに分解することで課題を軽減する高度なアーキテクチャを提案する。
ストリーミング言語モデルで特定される「アテンションシンク」現象にインスパイアされ、モデルの安定性と性能を高めるための同様のメカニズムを組み込んだ。
論文 参考訳(メタデータ) (2024-08-01T02:49:58Z) - Stragglers-Aware Low-Latency Synchronous Federated Learning via Layer-Wise Model Updates [71.81037644563217]
同期フェデレーションラーニング(FL)は、協調エッジラーニングの一般的なパラダイムである。
一部のデバイスは計算資源が限られており、様々な可用性があるため、FLレイテンシはストラグラーに非常に敏感である。
本稿では,NNの最適化手法をバックプロパゲーションにより活用し,グローバルモデルを階層的に更新するストラグラー対応層対応学習(SALF)を提案する。
論文 参考訳(メタデータ) (2024-03-27T09:14:36Z) - Vertical Federated Learning over Cloud-RAN: Convergence Analysis and
System Optimization [82.12796238714589]
高速かつ正確なモデルアグリゲーションを実現するために,クラウド無線アクセスネットワーク(Cloud-RAN)ベースの垂直FLシステムを提案する。
アップリンクとダウンリンクの両方の伝送を考慮した垂直FLアルゴリズムの収束挙動を特徴付ける。
我々は,連続凸近似と代替凸探索に基づくシステム最適化アルゴリズムを開発した,連系トランシーバとフロントホール量子化設計によるシステム最適化フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-04T09:26:03Z) - Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。
本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。
実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文 参考訳(メタデータ) (2020-09-21T13:57:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。