論文の概要: Efficiently Programming Large Language Models using SGLang
- arxiv url: http://arxiv.org/abs/2312.07104v1
- Date: Tue, 12 Dec 2023 09:34:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 16:51:00.564138
- Title: Efficiently Programming Large Language Models using SGLang
- Title(参考訳): SGLangを用いた大規模言語モデルの効率的なプログラミング
- Authors: Lianmin Zheng, Liangsheng Yin, Zhiqiang Xie, Jeff Huang, Chuyue Sun,
Cody Hao Yu, Shiyi Cao, Christos Kozyrakis, Ion Stoica, Joseph E. Gonzalez,
Clark Barrett, Ying Sheng
- Abstract要約: 大規模言語モデル(LLM)のための構造化生成言語であるSGLangを紹介する。
我々はSGLangをPythonに埋め込まれたドメイン固有言語として実装した。
我々は,SGLang用のインタプリタ,コンパイラ,高性能ランタイムを開発した。
- 参考スコア(独自算出の注目度): 39.776237299963455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used for complex tasks
requiring multiple chained generation calls, advanced prompting techniques,
control flow, and interaction with external environments. However, efficient
systems for programming and executing these applications are lacking. To bridge
this gap, we introduce SGLang, a Structured Generation Language for LLMs.
SGLang is designed for the efficient programming of LLMs and incorporates
primitives for common LLM programming patterns. We have implemented SGLang as a
domain-specific language embedded in Python, and we developed an interpreter, a
compiler, and a high-performance runtime for SGLang. These components work
together to enable optimizations such as parallelism, batching, caching,
sharing, and other compilation techniques. Additionally, we propose
RadixAttention, a novel technique that maintains a Least Recently Used (LRU)
cache of the Key-Value (KV) cache for all requests in a radix tree, enabling
automatic KV cache reuse across multiple generation calls at runtime. SGLang
simplifies the writing of LLM programs and boosts execution efficiency. Our
experiments demonstrate that SGLang can speed up common LLM tasks by up to 5x,
while reducing code complexity and enhancing control.
- Abstract(参考訳): 大規模言語モデル(LLM)は、複数の連鎖生成呼び出し、高度なプロンプト技術、制御フロー、および外部環境との相互作用を必要とする複雑なタスクにますます使われている。
しかし、これらのアプリケーションのプログラミングと実行のための効率的なシステムは不足している。
このギャップを埋めるために,LLMのための構造化生成言語であるSGLangを紹介する。
SGLangはLLMの効率的なプログラミング用に設計されており、一般的なLLMプログラミングパターンにプリミティブを組み込んでいる。
我々はSGLangをPythonに組み込まれたドメイン固有言語として実装し、SGLang用のインタプリタ、コンパイラ、高性能ランタイムを開発した。
これらのコンポーネントは並列処理、バッチ処理、キャッシュ、共有、その他のコンパイルテクニックなどの最適化を可能にするために協力する。
さらに,RadixAttentionを提案する。これは,キーバリュー(KV)キャッシュのLRUキャッシュをラディクスツリー内のすべての要求に対して保持し,実行時に複数の世代コールをまたいだKVキャッシュの自動再利用を可能にする技術である。
SGLangはLLMプログラムの記述を簡略化し、実行効率を高める。
我々の実験は、SGLangがコードの複雑さを減らし制御を増強しつつ、一般的なLLMタスクを最大5倍高速化できることを示した。
関連論文リスト
- CodeGRAG: Extracting Composed Syntax Graphs for Retrieval Augmented Cross-Lingual Code Generation [60.799992690487336]
単一ラウンドのコード生成タスクにおいて,LLMの性能を向上させるための構文グラフ検索コード生成(CodeGRAG)を提案する。
CodeGRAGはLLMのコード生成能力を大幅に改善し、言語間コード生成のパフォーマンス向上も実現している。
論文 参考訳(メタデータ) (2024-05-03T02:48:55Z) - IRCoder: Intermediate Representations Make Language Models Robust Multilingual Code Generators [49.903001442804594]
本研究では、コンパイラ中間表現(IR)を活用して、Code-LMの多言語機能を改善する可能性について検討する。
まず,約400万のソースコードファイルからなる並列データセットであるSLTransをコンパイルする。
次に、SLTransにおける因果言語モデリングトレーニングを継続して実施し、Code-LMはIR言語を学習せざるを得なかった。
IRCoderと呼ばれる結果のモデルは、さまざまなコード生成タスクやメトリクスに対して、サイズと一貫性のあるゲインを表示します。
論文 参考訳(メタデータ) (2024-03-06T17:52:08Z) - Think Big, Generate Quick: LLM-to-SLM for Fast Autoregressive Decoding [16.66039039507951]
大規模言語モデル(LLM)は、実際にはユビキタスなものとなり、翻訳、要約、命令の追従といった生成タスクに広く利用されている。
本稿では,異なるサイズの言語モデルを組み合わせて,自己回帰復号化の効率を高めるハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2024-02-26T18:59:28Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - The Ups and Downs of Large Language Model Inference with Vocabulary Trimming by Language Heuristics [74.99898531299148]
本研究は,興味のある言語への埋め込みエントリを制限し,時間と記憶効率を高めることによる語彙トリミング(VT)について検討する。
Unicodeベースのスクリプトフィルタリングとコーパスベースの選択という2つの言語を異なる言語ファミリやサイズに適用する。
その結果、VTは小型モデルのメモリ使用量を50%近く削減し、生成速度が25%向上した。
論文 参考訳(メタデータ) (2023-11-16T09:35:50Z) - AskIt: Unified Programming Interface for Programming with Large Language
Models [0.0]
大規模言語モデル(LLM)は創発能力として知られるユニークな現象を示し、多くのタスクにまたがって適応性を示す。
本稿では,LLM用に特別に設計されたドメイン固有言語であるAskItを紹介する。
50タスクにわたって、AskItは簡潔なプロンプトを生成し、ベンチマークよりも16.14パーセントのプロンプト長の削減を実現した。
論文 参考訳(メタデータ) (2023-08-29T21:44:27Z) - TASTY: A Transformer based Approach to Space and Time complexity [0.4724825031148411]
コードベース言語モデル(LM)は、ソフトウェア工学の分野で非常に有望な結果を示している。
複数の言語にまたがるコードスニペットのラベル付きデータセットを作成します。
私たちは、コードから空間の複雑さを見つけるのにLMを使うことを提案しています。
論文 参考訳(メタデータ) (2023-05-06T03:37:44Z) - Low-code LLM: Graphical User Interface over Large Language Models [115.08718239772107]
本稿では,人間-LLMインタラクションフレームワークであるLow-code LLMを紹介する。
より制御可能で安定した応答を実現するために、6種類のシンプルなローコードビジュアルプログラミングインタラクションを組み込んでいる。
ユーザフレンドリなインタラクション,制御可能な生成,広い適用性という,低コード LLM の3つの利点を強調した。
論文 参考訳(メタデータ) (2023-04-17T09:27:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。