論文の概要: Pie: A Programmable Serving System for Emerging LLM Applications
- arxiv url: http://arxiv.org/abs/2510.24051v1
- Date: Tue, 28 Oct 2025 04:17:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.752696
- Title: Pie: A Programmable Serving System for Emerging LLM Applications
- Title(参考訳): Pie: LLMアプリケーションを進化させるプログラマブルサービングシステム
- Authors: In Gim, Zhiyao Ma, Seung-seob Lee, Lin Zhong,
- Abstract要約: Pieは、柔軟性と効率性のために設計されたプログラム可能なサービスシステムである。
従来の生成ループを、API経由で公開されたきめ細かいサービスハンドラに分解する。
WebAssemblyを使ってInferletを実行し、その軽量なサンドボックスの恩恵を受ける。
- 参考スコア(独自算出の注目度): 3.905272047350447
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Emerging large language model (LLM) applications involve diverse reasoning strategies and agentic workflows, straining the capabilities of existing serving systems built on a monolithic token generation loop. This paper introduces Pie, a programmable LLM serving system designed for flexibility and efficiency. Pie decomposes the traditional generation loop into fine-grained service handlers exposed via an API and delegates control of the generation process to user-provided programs, called inferlets. This enables applications to implement new KV cache strategies, bespoke generation logic, and seamlessly integrate computation and I/O-entirely within the application, without requiring modifications to the serving system. Pie executes inferlets using WebAssembly, benefiting from its lightweight sandboxing. Our evaluation shows Pie matches state-of-the-art performance on standard tasks (3-12% latency overhead) while significantly improving latency and throughput (1.3x-3.4x higher) on agentic workflows by enabling application-specific optimizations.
- Abstract(参考訳): 新たな大規模言語モデル(LLM)アプリケーションは、さまざまな推論戦略とエージェントワークフローを伴い、モノリシックトークン生成ループ上に構築された既存のサービスシステムの能力を損なう。
本稿では,柔軟性と効率性を考慮したプログラマブルLLMサービスシステムであるPieを紹介する。
Pieは従来の生成ループをAPIを通じて公開するきめ細かいサービスハンドラに分解し、生成プロセスの制御をインフェレットと呼ばれるユーザが提供するプログラムに委譲する。
これにより、アプリケーションは新しいKVキャッシュ戦略を実装し、生成ロジックを起動し、計算とI/Oをシームレスに統合できる。
PieはWebAssemblyを使ってインフェレットを実行する。
評価の結果、Pieは標準的なタスク(3-12%のレイテンシオーバーヘッド)で最先端のパフォーマンスと一致し、アプリケーション固有の最適化によってエージェントワークフローでのレイテンシとスループット(1.3x-3.4倍)を大幅に改善した。
関連論文リスト
- Justitia: Fair and Efficient Scheduling for LLM Applications [32.900257208449716]
我々は、3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。
Justitiaは、LLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。
単純なニューラルネットワークモデルを使用して、軽量で正確な需要予測を行う。
論文 参考訳(メタデータ) (2025-10-19T21:34:34Z) - Towards Agentic OS: An LLM Agent Framework for Linux Schedulers [3.8068085728995307]
我々は、完全に自律的な大規模言語モデル(LLM)エージェントが、人間の関与なしにLinuxスケジューラを安全かつ効率的に最適化できる、最初のフレームワークであるSchedCPを紹介した。
評価の結果,SchedCPの性能改善は最大1.79倍,コスト削減は有意なエージェントアプローチに比べて13倍であることがわかった。
論文 参考訳(メタデータ) (2025-09-01T08:38:49Z) - CSGO: Generalized Optimization for Cold Start in Wireless Collaborative Edge LLM Systems [62.24576366776727]
本稿では,全体の推論遅延を最小限に抑えるために,遅延を考慮したスケジューリングフレームワークを提案する。
提案手法は,ベースライン戦略と比較して,コールドスタート遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-08-15T07:49:22Z) - Apt-Serve: Adaptive Request Scheduling on Hybrid Cache for Scalable LLM Inference Serving [22.66354939370058]
Apt-Serveは、大規模言語モデル(LLM)推論サービスシステムにおける効果的なスループットを高めるために設計されたフレームワークである。
新たなハイブリッドキャッシュスキームでは、KVキャッシュとメモリ効率の高い隠れキャッシュを組み合わせることで、再利用可能な入力隠れ状態ベクタを実現し、バッチサイズを大きくし、要求を改善する。
Apt-Serveは,最先端の推論サービスシステムと比較して,スループットが最大8.8倍向上することを示す。
論文 参考訳(メタデータ) (2025-04-10T06:51:23Z) - ConServe: Fine-Grained GPU Harvesting for LLM Online and Offline Co-Serving [61.35068981176018]
ConServeは、高いスループットと強力なオンラインレイテンシ保証を実現する大規模言語モデル(LLM)サービスシステムである。
我々は,ConServeが平均2.2$times$高スループットを実現し,オンラインサービステールのレイテンシを最先端システムと比較して平均2.9$times$削減することを示した。
論文 参考訳(メタデータ) (2024-10-02T04:12:13Z) - Prompt Tuning as User Inherent Profile Inference Machine [68.16976932088708]
本稿では,ユーザプロファイルの推測にプロンプトチューニングを用いるUserIP-Tuningを提案する。
UserIP-Tuningは最先端のレコメンデーションアルゴリズムより優れている。
提案されたソリューションは2025年5月からHuawei AppGalleryのExploreページにデプロイされている。
論文 参考訳(メタデータ) (2024-08-13T02:25:46Z) - Fast Distributed Inference Serving for Large Language Models [12.703624317418237]
大規模言語モデル(LLM)のための分散推論サービスシステムであるFastServeについて述べる。
FastServeはLLM推論の自己回帰パターンを利用して、各出力トークンの粒度のプリエンプションを可能にする。
我々は,FastServeのシステムプロトタイプを構築し,最先端のソリューションであるvLLMと比較して,同じ平均および末尾遅延条件下でのスループットを最大31.4xと17.9xに改善したことを示す。
論文 参考訳(メタデータ) (2023-05-10T06:17:50Z) - Cheaply Evaluating Inference Efficiency Metrics for Autoregressive
Transformer APIs [66.30706841821123]
大規模言語モデル(LLM)は、自然言語処理において多くの最先端システムに電力を供給する。
LLMは、推論時でさえ非常に計算コストが高い。
モデル間での推論効率を比較するための新しい指標を提案する。
論文 参考訳(メタデータ) (2023-05-03T21:51:42Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。