Fugu-MT 論文翻訳(概要): xLLM Technical Report

論文の概要: xLLM Technical Report

arxiv url: http://arxiv.org/abs/2510.14686v1
Date: Thu, 16 Oct 2025 13:53:47 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-17 21:15:14.880655
Title: xLLM Technical Report
Title（参考訳）: xLLM技術報告
Authors: Tongxuan Liu, Tao Peng, Peijun Yang, Xiaoyang Zhao, Xiusheng Lu, Weizhe Huang, Zirui Liu, Xiaoyu Chen, Zhiwei Liang, Jun Xiong, Donghe Jin, Minchao Zhang, Jinrong Guo, Yingxu Deng, Xu Zhang, Xianzhe Dong, Siqi Wang, Siyu Wu, Yu Wu, Zihan Tang, Yuting Zeng, Yanshu Wang, Jinguang Liu, Meng Kang, Menxin Li, Yunlong Wang, Yiming Liu, Xiaolong Ma, Yifan Wang, Yichen Zhang, Jinrun Yin, Keyang Zheng, Jiawei Yin, Jun Zhang, Ziyue Wang, Xiaobo Lin, Liangyu Liu, Liwei Lan, Yang Liu, Chunhua Peng, Han Liu, Songcheng Ren, Xuezhu Wang, Yunheng Shen, Yi Wang, Guyue Liu, Hui Chen, Tong Yang, Hailong Yang, Jing Li, Guiguang Ding, Ke Zhang,
Abstract要約: 我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。 xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。 xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
参考スコア（独自算出の注目度）: 57.13120905321185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce xLLM, an intelligent and efficient Large Language Model (LLM) inference framework designed for high-performance, large-scale enterprise-grade serving, with deep optimizations for diverse AI accelerators. To address these challenges, xLLM builds a novel decoupled service-engine architecture. At the service layer, xLLM-Service features an intelligent scheduling module that efficiently processes multimodal requests and co-locates online and offline tasks through unified elastic scheduling to maximize cluster utilization. This module also relies on a workload-adaptive dynamic Prefill-Decode (PD) disaggregation policy and a novel Encode-Prefill-Decode (EPD) disaggregation policy designed for multimodal inputs. Furthermore, it incorporates a distributed architecture to provide global KV Cache management and robust fault-tolerant capabilities for high availability. At the engine layer, xLLM-Engine co-optimizes system and algorithm designs to fully saturate computing resources. This is achieved through comprehensive multi-layer execution pipeline optimizations, an adaptive graph mode and an xTensor memory management. xLLM-Engine also further integrates algorithmic enhancements such as optimized speculative decoding and dynamic EPLB, collectively serving to substantially boost throughput and inference efficiency. Extensive evaluations demonstrate that xLLM delivers significantly superior performance and resource efficiency. Under identical TPOT constraints, xLLM achieves throughput up to 1.7x that of MindIE and 2.2x that of vLLM-Ascend with Qwen-series models, while maintaining an average throughput of 1.7x that of MindIE with Deepseek-series models. xLLM framework is publicly available at https://github.com/jd-opensource/xllm and https://github.com/jd-opensource/xllm-service.
Abstract（参考訳）: 我々は、ハイパフォーマンスで大規模なエンタープライズレベルのサービスを実現するために設計された、インテリジェントで効率的なLarge Language Model(LLM)推論フレームワークであるxLLMを紹介し、多様なAIアクセラレーターを深く最適化する。これらの課題に対処するため、xLLMは新しく分離されたサービスエンジンアーキテクチャを構築している。サービス層では、xLLM-Serviceがインテリジェントなスケジューリングモジュールを備え、マルチモーダルリクエストを効率的に処理し、クラスタ利用を最大化するために統一されたエラスティックスケジューリングを通じて、オンラインおよびオフラインタスクを同時配置する。このモジュールは、ワークロード適応型動的Prefill-Decode(PD)デアグリゲーションポリシーと、マルチモーダル入力用に設計された新しいEncode-Prefill-Decode(EPD)デアグリゲーションポリシーにも依存している。さらに、グローバルなKVキャッシュ管理と高可用性のための堅牢なフォールトトレラント機能を提供するために、分散アーキテクチャが組み込まれています。エンジン層では、xLLM-Engineがシステム設計とアルゴリズム設計を共同で最適化し、コンピュータ資源を完全に飽和させる。これは、包括的な多層実行パイプライン最適化、適応グラフモード、xTensorメモリ管理によって実現される。 xLLM-Engineはさらに、最適化された投機的復号化や動的EPLBといったアルゴリズム拡張を統合し、スループットと推論効率を大幅に向上させる。大規模な評価は、xLLMが性能とリソース効率を著しく向上させることを示している。同じTPOT制約の下で、xLLMはMindIEの1.7倍、vLLM-Ascendの2.2倍のスループットをQwen-Seriesモデルで達成し、MindIEの1.7倍のスループットをDeepseek-Seriesモデルで維持する。 xLLMフレームワークはhttps://github.com/jd-opensource/xllmとhttps://github.com/jd-opensource/xllm-serviceで公開されている。

関連論文リスト

AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving [16.664502126572856]
AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。 GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
論文参考訳（メタデータ） (2026-01-09T20:03:57Z)
nncase: An End-to-End Compiler for Efficient LLM Deployment on Heterogeneous Storage Architectures [7.460240094212613]
さまざまなターゲットに対して最適化を統合するために設計された、エンドツーエンドのコンパイルフレームワークであるnncaseを提示する。 nncaseは、異種コンピューティングユニットに適応するためのAuto Vectorize、並列戦略を検索するためのAuto Distribution、オンチップキャッシュのローカリティを最大化するAuto Scheduleの3つの重要なモジュールを統合している。
論文参考訳（メタデータ） (2025-12-25T08:27:53Z)
DiRL: An Efficient Post-Training Framework for Diffusion Language Models [54.405206032785706]
Diffusion Language Models (dLLMs) はAuto-Regressive(AR)モデルに代わる有望な代替品として登場した。既存の手法は、訓練と推論の間の計算の非効率性と客観的なミスマッチに悩まされている。我々は,FlexAttention-accelerated blockwise trainingとLMDeploy-timized inferenceを密接に統合した,効率的なポストトレーニングフレームワークであるDiRLを紹介した。
論文参考訳（メタデータ） (2025-12-23T08:33:19Z)
PerfDojo: Automated ML Library Generation for Heterogeneous Architectures [28.513777562827485]
大規模言語モデル(LLM)と強化学習(RL)を活用した新しい自動最適化手法PerfLLMを紹介する。 PerfDojoは、ヒューマン可読で数学的にインスパイアされたコード表現を使用して、変換による意味論的妥当性を保証するRLゲームとして、環境フレーミングの最適化である。 PerfLLMの様々なCPU(x86、Arm、RISC-V)とGPUアーキテクチャ間で大きなパフォーマンス向上を実現する能力を示す。
論文参考訳（メタデータ） (2025-11-05T16:05:26Z)
Fast-dLLM v2: Efficient Block-Diffusion LLM [64.38006546510337]
Fast-dLLM v2はブロック拡散言語モデルで、訓練済みのARモデルをdLLMに適応して並列テキストを生成する。これは、Dream(580Bトークン)のようなフルアテンション拡散LDMと比較して、トレーニングデータの500倍の減少を示す。
論文参考訳（メタデータ） (2025-09-30T14:40:18Z)
VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文参考訳（メタデータ） (2025-09-01T01:45:18Z)
Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文参考訳（メタデータ） (2025-08-25T09:11:27Z)
Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文参考訳（メタデータ） (2025-05-28T14:03:02Z)
Understanding and Optimizing Multi-Stage AI Inference Pipelines [11.254219071373319]
HERMESは不均一な多段LPM推論実行シミュレータである。 HERMESは、以前のフレームワークとは異なり、複数のモデルを同時に実行する異種クライアントをサポートする。我々は、推論ステージがエンドツーエンドのレイテンシ、ハイブリッドパイプラインの最適戦略、リモートKVキャッシュ検索のアーキテクチャ的影響について検討する。
論文参考訳（メタデータ） (2025-04-14T00:29:49Z)
Tackling the Dynamicity in a Production LLM Serving System with SOTA Optimizations via Hybrid Prefill/Decode/Verify Scheduling on Efficient Meta-kernels [12.77187564450236]
本稿では,多機能なAscendネイティブ,エンドツーエンド生産型大規模言語モデル(LLM)サービスシステムであるXY-Serveを紹介する。中心となる考え方は、計算をきめ細かいメタプリミティブに分解することで、ワークロードの変動を円滑にする抽象化メカニズムである。 GEMMでは,動的形状変化に適応する仮想パディング方式を導入し,高効率な固定タイルサイズGEMMプリミティブを用いた。
論文参考訳（メタデータ） (2024-12-24T02:27:44Z)
Read-ME: Refactorizing LLMs as Router-Decoupled Mixture of Experts with System Co-Design [59.00758127310582]
本稿では、事前学習された高密度LCMをより小さなMoEモデルに変換する新しいフレームワークRead-MEを提案する。当社のアプローチでは,専門家の抽出にアクティベーション空間を用いる。 Read-MEは、同様のスケールの他の人気のあるオープンソース高密度モデルよりも優れています。
論文参考訳（メタデータ） (2024-10-24T19:48:51Z)
EPS-MoE: Expert Pipeline Scheduler for Cost-Efficient MoE Inference [49.94169109038806]
本稿では,既存の並列処理方式を超越したMoE用パイプラインスケジューラであるEPS-MoEを紹介する。その結果,既存の並列推論手法と比較して,プリフィルスループットは52.4%向上した。
論文参考訳（メタデータ） (2024-10-16T05:17:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。