論文の概要: SGLang: Efficient Execution of Structured Language Model Programs
- arxiv url: http://arxiv.org/abs/2312.07104v2
- Date: Thu, 6 Jun 2024 00:10:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-08 00:20:02.564469
- Title: SGLang: Efficient Execution of Structured Language Model Programs
- Title(参考訳): SGLang: 構造化言語モデルプログラムの効率的な実行
- Authors: Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Chuyue Sun, Jeff Huang, Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez, Clark Barrett, Ying Sheng,
- Abstract要約: 本稿では,複雑な言語モデルプログラムの効率的な実行システムであるSGLangを紹介する。
Radix for KVLangや圧縮有限状態マシンなどの新しい最適化によるランタイム実行は、より高速な構造化出力デコードを実現する。
SGを6.4倍のスループットでキャッシュする実験は、様々な大規模言語マルチモーダルモデルにおける最先端の推論と比較できる。
- 参考スコア(独自算出の注目度): 38.7354780030876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for complex tasks that require multiple generation calls, advanced prompting techniques, control flow, and structured inputs/outputs. However, efficient systems are lacking for programming and executing these applications. We introduce SGLang, a system for efficient execution of complex language model programs. SGLang consists of a frontend language and a runtime. The frontend simplifies programming with primitives for generation and parallelism control. The runtime accelerates execution with novel optimizations like RadixAttention for KV cache reuse and compressed finite state machines for faster structured output decoding. Experiments show that SGLang achieves up to 6.4x higher throughput compared to state-of-the-art inference systems on various large language and multi-modal models on tasks including agent control, logical reasoning, few-shot learning benchmarks, JSON decoding, retrieval-augmented generation pipelines, and multi-turn chat. The code is publicly available at https://github.com/sgl-project/sglang
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の世代コール、高度なプロンプト技術、制御フロー、構造化インプット/出力を必要とする複雑なタスクにますます使われている。
しかし、効率的なシステムはこれらのアプリケーションのプログラミングと実行に欠けている。
本稿では,複雑な言語モデルプログラムの効率的な実行システムであるSGLangを紹介する。
SGLangはフロントエンド言語とランタイムで構成されている。
フロントエンドは、生成と並列制御のためのプリミティブでプログラミングを単純化する。
ランタイムは、KVキャッシュ再利用のためのRadixAttentionや、より高速な構造化出力デコードのために圧縮された有限状態マシンなどの新しい最適化で実行を加速する。
SGLangは、エージェント制御、論理的推論、数ショット学習ベンチマーク、JSONデコーディング、検索拡張生成パイプライン、マルチターンチャットなどのタスクにおける、さまざまな大規模言語やマルチモーダルモデル上での最先端推論システムと比較して、最大6.4倍のスループットを実現している。
コードはhttps://github.com/sgl-project/sglangで公開されている。
関連論文リスト
- XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models [3.9417976759908573]
文脈自由文法は制約付き復号化による構造化生成を可能にするフレキシブルなアプローチである。
XGrammarは、大規模言語モデルのための柔軟で効率的な構造生成エンジンである。
XGrammarは、既存のソリューションで最大100倍のスピードアップを達成することができる。
論文 参考訳(メタデータ) (2024-11-22T18:01:37Z) - CRUXEval-X: A Benchmark for Multilingual Code Reasoning, Understanding and Execution [50.7413285637879]
CRUXEVAL-Xコード推論ベンチマークには19のプログラミング言語が含まれている。
各言語に対して少なくとも600人の被験者で構成され、合計19Kのコンテンツ一貫性テストがある。
Pythonでのみトレーニングされたモデルでさえ、他の言語で34.4%のPass@1を達成することができる。
論文 参考訳(メタデータ) (2024-08-23T11:43:00Z) - Dynamic Code Orchestration: Harnessing the Power of Large Language Models for Adaptive Script Execution [0.5735035463793009]
実行中のアプリケーションのコンテキスト内で書かれた言語ディレクティブの動的コード実行について検討する。
この研究は、大規模な言語モデルに支えられて書かれた言語ディレクティブが、いかにして根本的に新しいプログラミングとオペレーティングシステムのパラダイムを提供するかを明確に示している。
論文 参考訳(メタデータ) (2024-08-07T17:11:31Z) - Code-Switched Language Identification is Harder Than You Think [69.63439391717691]
コードスイッチングは、文字と音声の通信において一般的な現象である。
CSコーパスの構築の応用について検討する。
タスクをもっと多くの言語に拡張することで、タスクをより現実的にします。
文レベルのマルチラベルタグ付け問題としてタスクを再構築し、より難易度の高いものにする。
論文 参考訳(メタデータ) (2024-02-02T15:38:47Z) - Can Large Language Models Write Parallel Code? [0.5317767988097261]
大規模言語モデルは、ソフトウェア開発の一般的なツールになりつつある。
本稿では,最先端言語モデルによる並列コード生成能力について検討する。
論文 参考訳(メタデータ) (2024-01-23T08:25:12Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Prompting Is Programming: A Query Language for Large Language Models [5.8010446129208155]
我々はLMP(Language Model Programming)という新しいアイデアを提示する。
LMPは、純粋なテキストプロンプトからテキストプロンプトとスクリプティングの直感的な組み合わせまで、言語モデルを一般化する。
LMQLは、さまざまな最先端のプロンプトメソッドを直感的にキャプチャできることを示す。
論文 参考訳(メタデータ) (2022-12-12T18:09:09Z) - QParallel: Explicit Parallelism for Programming Quantum Computers [62.10004571940546]
並列量子プログラミングのための言語拡張を提案する。
QParallelは、現在の量子プログラミング言語における並列性に関する曖昧さを取り除く。
並列化によって最も利益を上げるサブルーチンを識別し,並列領域の配置にプログラマを誘導するツールを提案する。
論文 参考訳(メタデータ) (2022-10-07T16:35:16Z) - StreamBlocks: A compiler for heterogeneous dataflow computing (technical
report) [1.5293427903448022]
この作業では、オープンソースのコンパイラとランタイムであるStreamBlocksを導入し、CALデータフロープログラミング言語を使用して、プラットフォーム間で計算処理を分割する。
StreamBlocksは、最高のハードウェア/ソフトウェアパーティションを特定するためのプロファイル誘導ツールを使用して、デザインスペースの探索をサポートする。
論文 参考訳(メタデータ) (2021-07-20T08:46:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。