論文の概要: AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
- arxiv url: http://arxiv.org/abs/2504.10326v1
- Date: Mon, 14 Apr 2025 15:34:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-22 18:09:32.883542
- Title: AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference
- Title(参考訳): AlayaDB: 効率的かつ効果的なLLM推論のためのデータ基盤
- Authors: Yangshen Deng, Zhengxin You, Long Xiang, Qilong Li, Peiqi Yuan, Zhaoyang Hong, Yitao Zheng, Wanting Li, Runzhong Li, Haotian Liu, Kyriakos Mouratidis, Man Lung Yiu, Huan Li, Qiaomu Shen, Rui Mao, Bo Tang,
- Abstract要約: AlayaDBは、AlayaDB AIの大規模言語モデル(LLM)のための効率的で効果的な長文推論のために設計された、最先端のベクトルデータベースシステムである。
LLM推論システムからKVキャッシュと注意を分離し、それらを新しいベクトルデータベースシステムにカプセル化する。
- 参考スコア(独自算出の注目度): 16.820738132338118
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AlayaDB is a cutting-edge vector database system natively architected for efficient and effective long-context inference for Large Language Models (LLMs) at AlayaDB AI. Specifically, it decouples the KV cache and attention computation from the LLM inference systems, and encapsulates them into a novel vector database system. For the Model as a Service providers (MaaS), AlayaDB consumes fewer hardware resources and offers higher generation quality for various workloads with different kinds of Service Level Objectives (SLOs), when comparing with the existing alternative solutions (e.g., KV cache disaggregation, retrieval-based sparse attention). The crux of AlayaDB is that it abstracts the attention computation and cache management for LLM inference into a query processing procedure, and optimizes the performance via a native query optimizer. In this work, we demonstrate the effectiveness of AlayaDB via (i) three use cases from our industry partners, and (ii) extensive experimental results on LLM inference benchmarks.
- Abstract(参考訳): AlayaDBは、AlayaDB AIのLarge Language Models(LLM)の効率的かつ効果的なロングコンテキスト推論のためにネイティブに設計された、最先端のベクトルデータベースシステムである。
具体的には、LLM推論システムからKVキャッシュと注意計算を分離し、それらを新しいベクトルデータベースシステムにカプセル化する。
モデル・アズ・ア・サービス・プロバイダ(MaaS)の場合、AlayaDBはハードウェアリソースを少なく消費し、既存の代替ソリューション(KVキャッシュの分散、検索ベースのスパース・アテンションなど)と比較した場合、さまざまな種類のサービスレベル・オブジェクト(SLO)を持つワークロードに対して、より高い世代品質を提供する。
AlayaDBの要点は、LLM推論の注意計算とキャッシュ管理をクエリ処理手順に抽象化し、ネイティブクエリオプティマイザを通じてパフォーマンスを最適化することだ。
本稿では,AlayaDB の有効性を実演する。
(i)業界パートナーによる3つのユースケース、及び
(II) LLM推論ベンチマークの広範な実験結果。
関連論文リスト
- LLMs as Data Annotators: How Close Are We to Human Performance [47.61698665650761]
データのマニュアルアノテーションは、労働集約的で、時間がかかり、コストがかかる。
In-context Learning (ICL) では、タスクに関連するいくつかの例がプロンプトで与えられると、非効率性や準最適モデルの性能につながる可能性がある。
本稿では,NERタスクの様々なデータセットに対して,異なる埋め込みモデルを考慮した複数のLLMの比較実験を行う。
論文 参考訳(メタデータ) (2025-04-21T11:11:07Z) - Cost-Optimal Grouped-Query Attention for Long-Context LLMs [64.90662568387683]
効率的なTransformerベースの大規模言語モデル(LLM)の構築が最近研究の焦点となっている。
モデル性能,計算コスト,メモリコストの面で,パラメータサイズ,コンテキスト長,アテンションヘッド構成の異なるモデルを比較した。
本研究は, 十分に長いシーケンスを処理した場合, より少ないアテンションヘッドを持つモデルでは, 計算コストとメモリコストの低減を図りながら, 損失を低減できることを示した。
論文 参考訳(メタデータ) (2025-03-12T17:50:42Z) - LLMIdxAdvis: Resource-Efficient Index Advisor Utilizing Large Language Model [24.579793425796193]
本研究では,大規模言語モデル(LLM)を用いた資源効率の指標アドバイザを提案する。
LLMは、インデックスレコメンデーションをシーケンス・ツー・シーケンスタスクとしてフレーム化し、ターゲットのワークロード、ストレージ制約、および対応するデータベース環境を入力として取り込む。
3つのOLAPと2つの実世界のベンチマークの実験によると、LLMIdxAdvisはランタイムを削減した競合インデックスレコメンデーションを提供する。
論文 参考訳(メタデータ) (2025-03-10T22:01:24Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Star-Agents: Automatic Data Optimization with LLM Agents for Instruction Tuning [71.2981957820888]
本稿では,データセット間のデータ品質向上を自動化する新しいStar-Agentsフレームワークを提案する。
このフレームワークは最初,複数のLDMエージェントを用いた多様なインストラクションデータを生成する。
生成したデータは、難易度と品質の両方を評価する二重モデル法を用いて厳密な評価を行う。
論文 参考訳(メタデータ) (2024-11-21T02:30:53Z) - Optimizing LLM Inference for Database Systems: Cost-Aware Scheduling for Concurrent Requests [8.552242818726347]
本稿ではまず,LLM推論の性能を解析し,LLM推論におけるデータ管理の問題に焦点を当てる。
この問題の根底にあるのは、複数の同時推論要求を実行する際に、適切なリソースコストモデルと最適化戦略が欠如していることである。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - SelectLLM: Query-Aware Efficient Selection Algorithm for Large Language Models [8.558834738072363]
大規模言語モデル(LLM)は、様々なアプリケーションにまたがる顕著な性能のために広く採用されている。
これらの個々のLCMは、固有のトレーニングバイアス、モデルサイズ制約、トレーニング前のデータセットの品質や多様性による、複雑なタスクの一般化とパフォーマンスの制限を示す。
本稿では,入力クエリをLLMの最も適切なサブセットに効率的に誘導するSelectLLMを紹介する。
論文 参考訳(メタデータ) (2024-08-16T06:11:21Z) - Relational Database Augmented Large Language Model [59.38841050766026]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクに優れる。
彼らは、トレーニングや教師付き微調整プロセスを通じてのみ、新しい知識を取り入れることができる。
この正確で最新のプライベート情報は、通常リレーショナルデータベースに格納される。
論文 参考訳(メタデータ) (2024-07-21T06:19:10Z) - VELO: A Vector Database-Assisted Cloud-Edge Collaborative LLM QoS Optimization Framework [10.716259527813522]
大規模言語モデル (LLM) は広く普及し、様々な領域で広く利用されている。
ほとんどのLDMデプロイメントは、クラウドデータセンタ内で発生し、相当な応答遅延と高いコストが発生する。
LLM要求結果をエッジに格納するためにベクトルデータベースキャッシュを活用することで、同様の要求に関連する応答遅延とコストを大幅に軽減することができる。
論文 参考訳(メタデータ) (2024-06-19T09:41:37Z) - Powering In-Database Dynamic Model Slicing for Structured Data Analytics [31.360239181279525]
本稿では,指定されたsqlクエリのモデルをカスタマイズする新しい動的スライシング手法であるLEADSを紹介する。
LEADSは、専門家(MoE)の混合を通じて構造化データの予測モデリングを改善し、SQL対応ゲーティングネットワークによって効率を維持する。
実世界のデータセットに関する我々の実験は、LEADSがベースラインモデルより一貫して優れていることを示した。
論文 参考訳(メタデータ) (2024-05-01T15:18:12Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Optimizing LLM Queries in Relational Data Analytics Workloads [50.95919232839785]
バッチデータ分析は、Large Language Models(LLMs)の急成長するアプリケーションである
LLMは、分類、エンティティ抽出、翻訳などの幅広い自然言語タスクを、大規模なデータセット上で実行可能にする。
本稿では,LLMコールによるリレーショナルデータ解析処理のコストを大幅に削減できる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-09T07:01:44Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z) - A Comparison of Decision Forest Inference Platforms from A Database
Perspective [4.873098180823506]
決定森林は、クレジットカード詐欺の検出、ランキング、ビジネスインテリジェンスなど、多くの産業シナリオで使われている最も一般的な機械学習手法の1つである。
ONNX、AmazonのTreeLite、GoogleのDecision Forest、MicrosoftのHummingBird、Nvidia FIL、Leavesなど、多くのフレームワークが開発され、決定森林の推測に費やされた。
論文 参考訳(メタデータ) (2023-02-09T04:07:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。