論文の概要: Serve Programs, Not Prompts
- arxiv url: http://arxiv.org/abs/2510.25412v1
- Date: Wed, 29 Oct 2025 11:29:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:45.480835
- Title: Serve Programs, Not Prompts
- Title(参考訳): プロンプトではなくプログラムをサーブする
- Authors: In Gim, Lin Zhong,
- Abstract要約: 本稿では,この問題に対処するプロンプトの代わりにプログラムを提供するシステムアーキテクチャとして,新たな大規模言語モデル(LLM)を提案する。
このアーキテクチャの例として,LIPのオペレーティングシステムとして機能するSymphonyというシステムについて述べる。
- 参考スコア(独自算出の注目度): 1.285540133357144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current large language model (LLM) serving systems, primarily designed for text completion, are neither efficient nor adaptable for increasingly complex LLM applications due to their inflexible design. We propose a new LLM serving system architecture that serves programs instead of prompts to address this problem. These programs, called LLM Inference Programs (LIPs), allow users to customize token prediction and KV cache management at runtime and to offload parts of their application logic, such as tool execution, to the server. We describe an example of this architecture through a system named Symphony, which functions as an operating system for LIPs. Symphony exposes LLM model computations via system calls and virtualizes KV cache with a dedicated file system, while ensuring GPU efficiency with a two-level process scheduling scheme. Symphony has the potential to open the door to a more efficient and extensible ecosystem for LLM applications.
- Abstract(参考訳): 現在の大規模言語モデル (LLM) サービスシステムは、主にテキスト補完用に設計されており、柔軟性のない設計のため、より複雑なLLMアプリケーションには効率が良く、適応できない。
本稿では,この問題に対処するプロンプトではなく,プログラムを提供する新しいLLMサービスシステムアーキテクチャを提案する。
LLM推論プログラム (LLM Inference Programs, LIP) と呼ばれるこれらのプログラムは、実行時にトークン予測とKVキャッシュ管理をカスタマイズし、ツール実行などのアプリケーションロジックの一部をサーバにオフロードすることを可能にする。
このアーキテクチャの例として,LIPのオペレーティングシステムとして機能するSymphonyというシステムについて述べる。
Symphonyはシステムコールを介してLLMモデル計算を公開し、専用のファイルシステムでKVキャッシュを仮想化する。
Symphonyは、LLMアプリケーションのためのより効率的で拡張可能なエコシステムへの扉を開く可能性がある。
関連論文リスト
- Pie: A Programmable Serving System for Emerging LLM Applications [3.905272047350447]
Pieは、柔軟性と効率性のために設計されたプログラム可能なサービスシステムである。
従来の生成ループを、API経由で公開されたきめ細かいサービスハンドラに分解する。
WebAssemblyを使ってInferletを実行し、その軽量なサンドボックスの恩恵を受ける。
論文 参考訳(メタデータ) (2025-10-28T04:17:55Z) - Justitia: Fair and Efficient Scheduling for LLM Applications [32.900257208449716]
我々は、3つの重要なテクニックを持つ新しいスケジューラであるJustitiaを設計する。
Justitiaは、LLMアプリケーションのサービスコストをメモリ中心の方法でモデル化します。
単純なニューラルネットワークモデルを使用して、軽量で正確な需要予測を行う。
論文 参考訳(メタデータ) (2025-10-19T21:34:34Z) - Autellix: An Efficient Serving Engine for LLM Agents as General Programs [59.673243129044465]
大規模言語モデル(LLM)アプリケーションは、単純なチャットボットを超えて、動的で汎用的なエージェントプログラムへと進化している。
既存のLLMサービスシステムは、プログラムと呼び出し間の依存関係を無視し、最適化のための大きな機会を欠いている。
プログラムを第一級市民として扱い、エンドツーエンドのレイテンシを最小限に抑えるLLMサービスシステムであるAutellixを紹介する。
論文 参考訳(メタデータ) (2025-02-19T18:59:30Z) - From Commands to Prompts: LLM-based Semantic File System for AIOS [46.29019415676847]
プロンプト駆動型ファイル管理のためのLSFS(LLM-based semantic file system)を提案する。
従来のアプローチとは異なり、LSFSはLLMを組み込んで、ユーザやエージェントが自然言語のプロンプトを通じてファイルと対話できるようにする。
実験の結果,LSFSはユーザ利便性,サポート対象関数の多様性,ファイル操作の正確性や効率性の観点から,従来のファイルシステムよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-09-23T08:39:16Z) - Teola: Towards End-to-End Optimization of LLM-based Applications [13.478509565946354]
大規模言語モデル(LLM)ベースのアプリケーションは、エンドツーエンドのレイテンシに寄与する。
既存のフレームワークでは,タスクモジュールによる粗粒度のオーケストレーションが採用されている。
タスクプリミティブを基本単位として,各クエリのワークフローをプリミティブレベルのデータフローグラフとして表現する,詳細なエンドツーエンドオーケストレーションを提案する。
論文 参考訳(メタデータ) (2024-06-29T05:59:53Z) - Preble: Efficient Distributed Prompt Scheduling for LLM Serving [8.706905652975554]
本稿では,プロンプト共有をターゲットとし最適化する最初の分散LLMサービスプラットフォームであるPrebleを提案する。
我々は,新しいスケジューリングアルゴリズムと階層的スケジューリング機構を用いて,KV状態の再利用と計算負荷分散を協調的に最適化する分散スケジューリングシステムを構築した。
2つのオープンソースLCM上での実際のワークロードと要求到着パターンによるPrebleの評価は、平均レイテンシで1.5倍から14.5倍、p99レイテンシで2倍から10倍のSOTAサービスシステムより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-08T06:30:58Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。