論文の概要: APIServe: Efficient API Support for Large-Language Model Inferencing
- arxiv url: http://arxiv.org/abs/2402.01869v1
- Date: Fri, 2 Feb 2024 19:47:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 23:38:17.444881
- Title: APIServe: Efficient API Support for Large-Language Model Inferencing
- Title(参考訳): APIServe: 大規模言語モデル推論のための効率的なAPIサポート
- Authors: Reyna Abhyankar, Zijian He, Vikranth Srivatsa, Hao Zhang, Yiying Zhang
- Abstract要約: APIServeは、API拡張LDMをターゲットにした最初のフレームワークである。
APISERVEはサービス全体のスループットを1.6倍改善し、毎秒2倍のリクエストを処理します。
- 参考スコア(独自算出の注目度): 10.373453693251154
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly integrated with external tools and
APIs like ChatGPT plugins to extend their capability beyond language-centric
tasks. However, today's LLM inference systems are designed for standalone LLMs.
They treat API calls as new requests, causing unnecessary recomputation of
already computed contexts, which accounts for 37-40% of total model forwarding
time. This paper presents APIServe, the first LLM inference framework targeting
API-augmented LLMs. APISERVE minimizes the GPU resource waste caused by API
calls and dedicates saved memory for serving more requests. APISERVE improves
the overall serving throughput by 1.6x and completes 2x more requests per
second compared to the state-of-the-art LLM inference systems.
- Abstract(参考訳): 大きな言語モデルは、言語中心のタスクを超えて機能を拡張するために、ChatGPTプラグインのような外部ツールやAPIとますます統合されています。
しかし、今日のLLM推論システムはスタンドアロンのLLM向けに設計されている。
彼らはAPI呼び出しを新しいリクエストとして扱い、すでに計算済みのコンテキストを不必要に再計算し、全体のモデル転送時間の37~40%を占める。
本稿では,API拡張 LLM を対象とした最初の LLM 推論フレームワークである APIServe を提案する。
APISERVEは、API呼び出しによるGPUリソースの浪費を最小限に抑え、より多くのリクエストを処理するためにメモリを節約する。
APISERVEはサービス全体のスループットを1.6倍改善し、最先端のLCM推論システムと比較して毎秒2倍のリクエストを処理します。
関連論文リスト
- SWIFT: On-the-Fly Self-Speculative Decoding for LLM Inference Acceleration [10.970637831760136]
投機的復号法(SD)は,大規模言語モデル(LLM)の推論を高速化するパラダイムとして広く用いられている。
本稿では,LLMの中間層を適応的に選択して推論時にスキップする,オンザフライの自己投機的復号アルゴリズムであるSWIFTを紹介する。
SWIFTは生成したテキストの元の分布を保ちながら1.3x-1.6xの高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-09T14:15:30Z) - ULLME: A Unified Framework for Large Language Model Embeddings with Generation-Augmented Learning [72.90823351726374]
我々は,LLM間の双方向の注目を可能にする,柔軟でプラグアンドプレイな実装であるLULME(Unified framework for Large Language Model Embedding)を紹介した。
また,テキスト埋め込みタスクのLLMを向上する新しい微調整手法であるGRL(Generation-augmented Representation Learning)を提案する。
フレームワークの柔軟性と有効性を示すために、異なるバックボーンアーキテクチャを持つULLMEから事前訓練された3つのモデルをリリースする。
論文 参考訳(メタデータ) (2024-08-06T18:53:54Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - FATE-LLM: A Industrial Grade Federated Learning Framework for Large
Language Models [18.65547577691255]
大規模言語モデル(LLM)は近年,様々なタスクにおいて顕著なパフォーマンスを示している。
FATE-LLMは、大規模言語モデルのための産業レベルの連邦学習フレームワークである。
我々は、FedLLMの研究を促進するためにFATE-LLMのコードをリリースし、幅広い産業応用を可能にする。
論文 参考訳(メタデータ) (2023-10-16T04:17:13Z) - Response Length Perception and Sequence Scheduling: An LLM-Empowered LLM
Inference Pipeline [22.08897444328099]
大規模言語モデル(LLM)はAIの分野に革命をもたらし、様々なタスクで前例のない能力を示している。
本稿では,LLMのパワーを利用する効率的なLLM推論パイプラインを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:36:06Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。