論文の概要: AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
- arxiv url: http://arxiv.org/abs/2504.10326v1
- Date: Mon, 14 Apr 2025 15:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:53:16.723372
- Title: AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
- Title(参考訳): AlayaDB: 効率的かつ効果的なLLM推論のためのデータ基盤
- Authors: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang,
- Abstract要約: AlayaDBは、AlayaDB AIの大規模言語モデル(LLM)のための効率的で効果的な長文推論のために設計された、最先端のベクトルデータベースシステムである。
LLM推論システムからKVキャッシュと注意を分離し、それらを新しいベクトルデータベースシステムにカプセル化する。
- 参考スコア(独自算出の注目度): 16.820738132338118
- License:
- Abstract: AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.
- Abstract(参考訳): AlayaDBは、AlayaDB AIのLarge Language Models(LLM)の効率的かつ効果的なロングコンテキスト推論のためにネイティブに設計された、最先端のベクトルデータベースシステムである。
具体的には、LLM推論システムからKVキャッシュと注意計算を分離し、それらを新しいベクトルデータベースシステムにカプセル化する。
モデル・アズ・ア・サービス・プロバイダ(MaaS)の場合、AlayaDBはハードウェアリソースを少なく消費し、既存の代替ソリューション(KVキャッシュの分散、検索ベースのスパース・アテンションなど)と比較した場合、さまざまな種類のサービスレベル・オブジェクト(SLO)を持つワークロードに対して、より高い世代品質を提供する。
AlayaDBの要点は、LLM推論の注意計算とキャッシュ管理をクエリ処理手順に抽象化し、ネイティブクエリオプティマイザを通じてパフォーマンスを最適化することだ。
本稿では,AlayaDB の有効性を実演する。
(i)業界パートナーによる3つのユースケース、及び
(II) LLM推論ベンチマークの広範な実験結果。
関連論文リスト
- OptiSeq: Ordering Examples On-The-Fly for In-Context Learning [8.603219414567084]
OptiSeqは、最適なサンプル順序を効率的に決定する、純粋に推論時間、データセットなしの最適化手法である。
OptiSeqは複数のタスクで5.5~10.5ポイントの精度向上を実現している。
論文 参考訳(メタデータ) (2025-01-25T02:24:00Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Query Performance Explanation through Large Language Model for HTAP Systems [8.278943524339264]
ハイブリッドトランザクションおよび分析処理システムでは、ユーザは、あるエンジンからのクエリプランが他のエンジンよりも遅い理由を理解するのに苦労することが多い。
本稿では,大規模言語モデル(LLM)を活用して,HTAPシステムにおけるクエリ性能を説明する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T16:55:07Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - QPO: Query-dependent Prompt Optimization via Multi-Loop Offline Reinforcement Learning [58.767866109043055]
クエリ依存型プロンプト最適化(QPO)を導入し、入力クエリに合わせて最適なプロンプトを生成するために、小さな事前訓練された言語モデルを反復的に微調整する。
我々は、オープンソースのタスクに様々なプロンプトをベンチマークする副産物として、すでに大量に存在するオフラインのプロンプトデータから洞察を得る。
様々なLLMスケールと多様なNLPおよび数学タスクの実験は、ゼロショットと少数ショットの両方のシナリオにおいて、我々の手法の有効性とコスト効率を実証している。
論文 参考訳(メタデータ) (2024-08-20T03:06:48Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework [10.716259527813522]
大規模言語モデル (LLM) は広く普及し、様々な領域で広く利用されている。
ほとんどのLDMデプロイメントは、クラウドデータセンタ内で発生し、相当な応答遅延と高いコストが発生する。
LLM要求結果をエッジに格納するためにベクトルデータベースキャッシュを活用することで、同様の要求に関連する応答遅延とコストを大幅に軽減することができる。
論文 参考訳(メタデータ) (2024-06-19T09:41:37Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - A Comparison of Decision Forest Inference Platforms from A Database
Perspective [4.873098180823506]
決定森林は、クレジットカード詐欺の検出、ランキング、ビジネスインテリジェンスなど、多くの産業シナリオで使われている最も一般的な機械学習手法の1つである。
ONNX、AmazonのTreeLite、GoogleのDecision Forest、MicrosoftのHummingBird、Nvidia FIL、Leavesなど、多くのフレームワークが開発され、決定森林の推測に費やされた。
論文 参考訳(メタデータ) (2023-02-09T04:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。