論文の概要: AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving
- arxiv url: http://arxiv.org/abs/2601.06288v1
- Date: Fri, 09 Jan 2026 20:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.733062
- Title: AIConfigurator: Lightning-Fast Configuration Optimization for Multi-Framework LLM Serving
- Title(参考訳): AIConfigurator: マルチフレームLLMサービングのためのライトニングファスト構成最適化
- Authors: Tianhao Xu, Yiming Liu, Xianglong Lu, Yijia Zhao, Xuting Zhou, Aichen Feng, Yiyi Chen, Yi Shen, Qin Zhou, Xumeng Chen, Ilya Sherstyuk, Haorui Li, Rishi Thakkar, Ben Hamm, Yuanzhe Li, Xue Huang, Wenpeng Wu, Anish Shanbhag, Harry Kim, Chuan Chen, Junjie Lai,
- Abstract要約: AIConfiguratorは、Large Language Model(LLM)推論のための統一されたパフォーマンスモデリングシステムである。
GPUベースのプロファイリングを必要とせずに、迅速なフレームワークベースの構成検索を可能にする。
これは、高密度モデルのパフォーマンスを最大40%向上させる優れたサービス構成を特定する。
- 参考スコア(独自算出の注目度): 16.664502126572856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimizing Large Language Model (LLM) inference in production systems is increasingly difficult due to dynamic workloads, stringent latency/throughput targets, and a rapidly expanding configuration space. This complexity spans not only distributed parallelism strategies (tensor/pipeline/expert) but also intricate framework-specific runtime parameters such as those concerning the enablement of CUDA graphs, available KV-cache memory fractions, and maximum token capacity, which drastically impact performance. The diversity of modern inference frameworks (e.g., TRT-LLM, vLLM, SGLang), each employing distinct kernels and execution policies, makes manual tuning both framework-specific and computationally prohibitive. We present AIConfigurator, a unified performance-modeling system that enables rapid, framework-agnostic inference configuration search without requiring GPU-based profiling. AIConfigurator combines (1) a methodology that decomposes inference into analytically modelable primitives - GEMM, attention, communication, and memory operations while capturing framework-specific scheduling dynamics; (2) a calibrated kernel-level performance database for these primitives across a wide range of hardware platforms and popular open-weights models (GPT-OSS, Qwen, DeepSeek, LLama, Mistral); and (3) an abstraction layer that automatically resolves optimal launch parameters for the target backend, seamlessly integrating into production-grade orchestration systems. Evaluation on production LLM serving workloads demonstrates that AIConfigurator identifies superior serving configurations that improve performance by up to 40% for dense models (e.g., Qwen3-32B) and 50% for MoE architectures (e.g., DeepSeek-V3), while completing searches within 30 seconds on average. Enabling the rapid exploration of vast design spaces - from cluster topology down to engine specific flags.
- Abstract(参考訳): 大規模言語モデル(LLM)の本番システムでの推論の最適化は、動的ワークロード、厳格なレイテンシ/スループットターゲット、そして急速に拡大する構成空間のため、ますます困難になっている。
この複雑さは分散並列処理戦略(テンソル/ピペリン/エキスパート)だけでなく、CUDAグラフの有効化、利用可能なKVキャッシュメモリ率、パフォーマンスに大きな影響を与える最大トークン容量など、フレームワーク固有の実行パラメータにも及んでいる。
現代の推論フレームワーク(TRT-LLM、vLLM、SGLangなど)の多様性は、それぞれ異なるカーネルと実行ポリシーを採用しており、フレームワーク固有の手動チューニングと計算的に禁止されている。
我々は,GPUベースのプロファイリングを必要とせずに,フレームワークに依存しない高速な推論設定検索を可能にする,統合されたパフォーマンスモデリングシステムであるAIConfiguratorを提案する。
AIConfiguratorは、(1)フレームワーク固有のスケジューリングのダイナミクスを捉えながら、推論を分析的にモデル化可能なプリミティブ(GEMM、注意、コミュニケーション、メモリ操作)に分解する方法論、(2)幅広いハードウェアプラットフォームと一般的なオープンウェイトモデル(GPT-OSS、Qwen、DeepSeek、LLama、Mistral)にわたるプリミティブのためのキャリブレーションされたカーネルレベルのパフォーマンスデータベース、(3)ターゲットバックエンドの最適なローンチパラメータを自動的に解決し、運用レベルのオーケストレーションシステムにシームレスに統合する抽象化レイヤを組み合わせる。
実運用LLMサービスワークロードの評価によると、AIConfiguratorは、高密度モデル(例えば、Qwen3-32B)とMoEアーキテクチャ(例えば、DeepSeek-V3)のパフォーマンスを最大40%向上する優れたサービス構成を特定し、平均30秒以内に検索を完了している。
クラスタトポロジからエンジン固有のフラグに至るまで、広大なデザインスペースの迅速な探索を実現する。
関連論文リスト
- SimpleMem: Efficient Lifelong Memory for LLM Agents [73.74399447715052]
セマンティックロスレス圧縮に基づく効率的なメモリフレームワークSimpleMemを紹介する。
本稿では,情報密度とトークン利用量の最大化を目的とした3段階パイプラインを提案する。
ベンチマークデータセットを用いた実験により,提案手法は精度,検索効率,推論コストにおいて,ベースラインアプローチを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2026-01-05T21:02:49Z) - nncase: An End-to-End Compiler for Efficient LLM Deployment on Heterogeneous Storage Architectures [7.460240094212613]
さまざまなターゲットに対して最適化を統合するために設計された、エンドツーエンドのコンパイルフレームワークであるnncaseを提示する。
nncaseは、異種コンピューティングユニットに適応するためのAuto Vectorize、並列戦略を検索するためのAuto Distribution、オンチップキャッシュのローカリティを最大化するAuto Scheduleの3つの重要なモジュールを統合している。
論文 参考訳(メタデータ) (2025-12-25T08:27:53Z) - Eliminating Multi-GPU Performance Taxes: A Systems Approach to Efficient Distributed LLMs [61.953548065938385]
分析フレームワークとして'3つの税'(バルク同期、カーネル間データローカリティ、カーネルローンチオーバーヘッド)を紹介した。
我々は、分散GPU実行におけるキー非効率に対処するために、厳密なBSPモデルを超えて移動することを提案する。
BSPベースのアプローチによるエンドツーエンドのレイテンシの10-20%の高速化を観察する。
論文 参考訳(メタデータ) (2025-11-04T01:15:44Z) - xLLM Technical Report [57.13120905321185]
我々は,知的かつ効率的なLarge Language Model (LLM)推論フレームワークであるxLLMを紹介する。
xLLMは、新しい分離されたサービスエンジンアーキテクチャを構築する。
xLLM-Engineは、システムとアルゴリズムの設計を最適化し、コンピュータリソースを完全に飽和させる。
論文 参考訳(メタデータ) (2025-10-16T13:53:47Z) - Scalable Engine and the Performance of Different LLM Models in a SLURM based HPC architecture [3.746889836344766]
本研究は、SLURM(Simple Linux Utility for Resource Management)に基づく高性能コンピューティングアーキテクチャについて詳述する。
動的リソーススケジューリングとコンテナ化のシームレスな統合は、CPU、GPU、メモリをマルチノードクラスタで効率的に管理するために活用されている。
その結果,大規模HPCインフラストラクチャ上でのLLM推論は,より効率的で応答性が高く,耐故障性に優れた。
論文 参考訳(メタデータ) (2025-08-25T09:11:27Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Performance Optimization using Multimodal Modeling and Heterogeneous GNN [1.304892050913381]
本稿では,複数のタスクに適応可能な並列コード領域のチューニング手法を提案する。
本稿では、IRに基づくプログラミングモデルを分析し、タスク固有の性能最適化を行う。
実験の結果,このマルチモーダル学習に基づくアプローチは,すべての実験において最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-04-25T04:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。