論文の概要: Optimizing LLM Queries in Relational Workloads
- arxiv url: http://arxiv.org/abs/2403.05821v1
- Date: Sat, 9 Mar 2024 07:01:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 12:14:17.365598
- Title: Optimizing LLM Queries in Relational Workloads
- Title(参考訳): リレーショナルワークロードにおけるLCMクエリの最適化
- Authors: Shu Liu, Asim Biswal, Audrey Cheng, Xiangxi Mo, Shiyi Cao, Joseph E.
Gonzalez, Ion Stoica, Matei Zaharia
- Abstract要約: 本稿では,LLMをリレーショナルクエリ内で実行する解析処理に対して,LLM(Large Language Models)推論を最適化する方法を示す。
私たちはこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供しています。
実データセット上の多様なLLMベースのクエリのベンチマークで、エンドツーエンドのレイテンシを最大4.4倍改善する。
- 参考スコア(独自算出の注目度): 58.254894049950366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Analytical database providers (e.g., Redshift, Databricks, BigQuery) have
rapidly added support for invoking Large Language Models (LLMs) through native
user-defined functions (UDFs) to help users perform natural language tasks,
such as classification, entity extraction, and translation, inside analytical
workloads. For instance, an analyst might want to extract customer sentiments
on millions of product reviews. However, LLM inference is highly expensive in
both computational and economic terms: for example, an NVIDIA L4 GPU running
Llama2-7B can only process 6 KB of text per second. In this paper, we explore
how to optimize LLM inference for analytical workloads that invoke LLMs within
relational queries. We show that relational queries present novel opportunities
for accelerating LLM inference, including reordering rows to maximize key-value
(KV) cache reuse within the LLM inference engine, reordering columns within a
row to further increase cache reuse, and deduplicating redundant inference
requests. We implement these optimizations in Apache Spark, with vLLM as the
model serving backend and achieve up to 4.4x improvement in end-to-end latency
on a benchmark of diverse LLM-based queries on real datasets. To the best of
our knowledge, this is the first work to explicitly address the problem of
optimizing LLM invocations within SQL queries.
- Abstract(参考訳): 分析データベースプロバイダ(Redshift、Databricks、BigQueryなど)は、分析ワークロード内での分類、エンティティ抽出、翻訳などの自然言語タスクの実行を支援するために、ネイティブユーザ定義関数(UDF)を通じて、LLM(Large Language Models)の呼び出しを迅速にサポートした。
例えば、アナリストは何百万もの製品レビューの顧客感情を抽出したいかもしれない。
例えば、Llama2-7Bで動作するNVIDIA L4 GPUは毎秒6KBのテキストしか処理できない。
本稿では,リレーショナルクエリ内でLLMを呼び出す解析負荷に対して,LLM推論を最適化する方法を検討する。
例えば,LLM推論エンジン内のキー値(KV)キャッシュ再利用を最大化するための行の順序変更,行内の列の順序変更によるキャッシュ再利用の促進,冗長な推論要求の重複化などである。
我々はこれらの最適化をApache Sparkで実装し、vLLMをバックエンドとして提供し、実際のデータセット上の多様なLCMベースのクエリのベンチマークでエンドツーエンドのレイテンシを最大4.4倍改善しました。
私たちの知る限りでは、SQLクエリ内でLLM呼び出しを最適化する問題を明示的に解決する最初の作業です。
関連論文リスト
- Query-OPT: Optimizing Inference of Large Language Models via Multi-Query
Instructions in Meeting Summarization [8.234063663233595]
我々は,同一の入力コンテキストに対するクエリをひとつのプロンプトで組み合わせて,繰り返し呼び出しを最小限に抑える方法が,要約に有効かどうかを検討する。
ほとんどのLLMはマルチクエリの命令に応答する傾向にあるが、そのほとんど全てが要求された出力形式で応答を適切に生成できなかった。
論文 参考訳(メタデータ) (2024-02-29T19:00:47Z) - More Samples or More Prompt Inputs? Exploring Effective In-Context
Sampling for LLM Few-Shot Prompt Engineering [34.767637344329835]
In-Context Smpling (ICS) を提案し、複数のICLプロンプト入力の構成を最適化することにより、最も確実な予測結果を生成する。
アブレーション研究は、多様性に基づくICS戦略がLCMの性能をさらに向上させる可能性を示唆している。
論文 参考訳(メタデータ) (2023-11-16T11:02:49Z) - EcoAssistant: Using LLM Assistant More Affordably and Accurately [36.29735258966917]
EcoAssistantというフレームワークをコントリビュートすることで,大規模言語モデルによるコード駆動クエリの応答を,より安価かつ正確に行えるようにします。
まず、LLMアシスタントが自動コード実行器と会話することで、コードを反復的に洗練したり、実行結果に基づいて回答を生成できる。
第二に、LLMアシスタントの階層を使い、より弱く安価なLCMでクエリに答えようとする。
論文 参考訳(メタデータ) (2023-10-03T22:16:13Z) - Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。
入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。
元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文 参考訳(メタデータ) (2023-05-24T06:16:44Z) - Query Rewriting for Retrieval-Augmented Large Language Models [139.242907155883]
大規模言語モデル(LLM)は、検索対象のパイプラインで強力なブラックボックスリーダーを動作させる。
この作業では、検索拡張LDMに対する以前の検索テーマ読み込みの代わりに、新しいフレームワークであるRewrite-Retrieve-Readを導入する。
論文 参考訳(メタデータ) (2023-05-23T17:27:50Z) - LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。
タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。
LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文 参考訳(メタデータ) (2023-05-19T12:10:53Z) - Large Language Models are Strong Zero-Shot Retriever [89.16756291653371]
ゼロショットシナリオにおける大規模検索に大規模言語モデル(LLM)を適用するための簡単な手法を提案する。
我々の手法であるRetriever(LameR)は,LLM以外のニューラルモデルに基づいて構築された言語モデルである。
論文 参考訳(メタデータ) (2023-04-27T14:45:55Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z) - Check Your Facts and Try Again: Improving Large Language Models with
External Knowledge and Automated Feedback [127.75419038610455]
大規模言語モデル(LLM)は、ダウンストリームタスクの多くに対して、人間のような、流動的な応答を生成することができる。
本稿では,プラグ・アンド・プレイモジュールのセットでブラックボックスのLSMを増強するLSM-Augmenterシステムを提案する。
論文 参考訳(メタデータ) (2023-02-24T18:48:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。