論文の概要: Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
- arxiv url: http://arxiv.org/abs/2605.01280v1
- Date: Sat, 02 May 2026 06:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:49.680509
- Title: Position: LLM Serving Needs Mathematical Optimization and Algorithmic Foundations, Not Just Heuristics
- Title(参考訳): 位置: LLM Servingはヒューリスティックではなく、数学的最適化とアルゴリズムの基礎を必要としている
- Authors: Zijie Zhou,
- Abstract要約: LLM推論はジェネリックよりも優れており、現在では数学的最適化とアルゴリズムの基礎が要求されている。
これらの汎用ポリシーは、LLM推論の特徴的な構造、-動的に増大するKVキャッシュメモリ、プリフィル・デコード位相非対称性、未知の出力長、連続的な制約を無視している。
いくつかのシナリオで成功するが、他のシナリオでは予測不可能に失敗するモデルよりも、さまざまなワークロードで保証可能なパフォーマンス保証を備えたアルゴリズムを開発する必要がある、と我々は主張する。
- 参考スコア(独自算出の注目度): 3.143753806123382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper argues that LLM inference serving has outgrown generic heuristics and now demands mathematical optimization and algorithmic foundations. Despite rapid advances in serving systems such as vLLM and SGLang, their algorithmic cores remain largely unchanged from classical distributed computing: request routing uses join-shortest-queue or round-robin, scheduling defaults to FIFO, and KV cache eviction follows LRU. These general-purpose policies ignore the distinctive structure of LLM inference--dynamically growing KV cache memory, prefill-decode phase asymmetry, unknown output lengths, and continuous batching constraints. We contend that the field must develop mathematical models capturing these characteristics, enabling the design of algorithms with provable performance guarantees across diverse workloads, rather than heuristics that may succeed in some scenarios but fail unpredictably in others. Emerging work at the intersection of operations research and ML systems demonstrates that principled methods can match or exceed heuristic performance while providing theoretical guarantees. We call on the community to recognize algorithmic design for LLM serving as a research frontier.
- Abstract(参考訳): このポジションペーパーでは、LLM推論は一般的なヒューリスティックよりも優れており、現在、数学的最適化とアルゴリズムの基礎を求めている。
vLLMやSGLangのようなサービスシステムの急速な進歩にもかかわらず、アルゴリズムのコアは古典的な分散コンピューティングと大きく変わらず、リクエストルーティングは join-shortest-queue や round-robin を使用し、FIFO のデフォルトは FIFO に、KV キャッシュは LRU に従っている。
これらの汎用ポリシーは、LLM推論の特徴的な構造、-動的に増大するKVキャッシュメモリ、プリフィル・デコード位相非対称性、未知の出力長、連続バッチ制約を無視している。
これらの特徴を捉えた数学的モデルを開発し、いくつかのシナリオで成功するが予測不能に失敗するヒューリスティックではなく、様々なワークロードで証明可能な性能保証を備えたアルゴリズムを設計できるようにする必要がある、と我々は主張する。
運用研究とMLシステムの交差点における新たな研究は、原理的手法が理論的保証を提供しながらヒューリスティックな性能に適合または超えることを示した。
我々はLLMのアルゴリズム設計を研究フロンティアとして認識するようコミュニティに呼びかけている。
関連論文リスト
- From Paper to Program: Accelerating Quantum Many-Body Algorithm Development via a Multi-Stage LLM-Assisted Workflow [4.866193347313755]
大規模言語モデル(LLM)は高速にコードを生成することができるが、科学的アルゴリズムでは信頼性が低い。
本稿では,理論抽出,形式仕様,コード実装を分離した多段階LLM支援ワークフローを提案する。
論文 参考訳(メタデータ) (2026-04-05T12:12:54Z) - LLM4CMO: Large Language Model-aided Algorithm Design for Constrained Multiobjective Optimization [54.35609820607923]
大規模言語モデル(LLM)は、アルゴリズム設計を支援する新しい機会を提供する。
LLM4CMOは,2つの人口構成をもつ2段階のフレームワークをベースとした新しいCMOEAである。
LLMは複雑な進化最適化アルゴリズムの開発において効率的な共同設計者として機能する。
論文 参考訳(メタデータ) (2025-08-16T02:00:57Z) - Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - Optimizing LLM Inference: Fluid-Guided Online Scheduling with Memory Constraints [14.341123057506827]
大規模言語モデル(LLM)は、今日のアプリケーションでは必須であるが、推論手順は重要な計算資源を必要とする。
本稿では,多段階オンラインスケジューリング問題としてLLM推論最適化を定式化する。
我々は,アルゴリズム設計をガイドするトラクタブルなベンチマークを提供するために,流体力学近似を開発した。
論文 参考訳(メタデータ) (2025-04-15T16:00:21Z) - Throughput-Optimal Scheduling Algorithms for LLM Inference and AI Agents [6.318292471845427]
我々は,大規模言語モデル(LLM)推論のための待ち行列の基礎を開発する。
大規模な'作業保守'スケジューリングアルゴリズムが最大スループットを達成できることを実証する。
論文 参考訳(メタデータ) (2025-04-10T00:12:12Z) - Online Scheduling for LLM Inference with KV Cache Constraints [22.133592174540052]
大規模言語モデル(LLM)推論は、レイテンシとリソース利用を最適化するための効率的なスケジューリングを必要とする集約的なプロセスである。
KVキャッシュのメモリを効果的に管理しながら、推論遅延を最小限に抑える、新しい理論的なスケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-02-10T23:11:44Z) - Designing Algorithms Empowered by Language Models: An Analytical Framework, Case Studies, and Insights [86.06371692309972]
本研究では,大規模言語モデル(LLM)に基づくアルゴリズムの設計と解析のための分析フレームワークを提案する。
提案する枠組みは頭痛を緩和する試みとして機能する。
論文 参考訳(メタデータ) (2024-07-20T07:39:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。