論文の概要: GenDB: The Next Generation of Query Processing -- Synthesized, Not Engineered
- arxiv url: http://arxiv.org/abs/2603.02081v1
- Date: Mon, 02 Mar 2026 17:03:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.993368
- Title: GenDB: The Next Generation of Query Processing -- Synthesized, Not Engineered
- Title(参考訳): GenDB: 次世代のクエリ処理 -- シンセサイズドでエンジニアリングされていない
- Authors: Jiale Lao, Immanuel Trummer,
- Abstract要約: 大規模言語モデル(LLM)は、次世代のクエリ処理システムを形成し始めている。
我々は、インスタンス最適化およびカスタマイズされたクエリ実行コードを生成するLLMベースのエージェントシステムであるGenDBを提案する。
我々はGenDBとDuckDB、Umbra、MonetDB、ClickHouse、TPCといった最先端のクエリエンジンを比較します。
- 参考スコア(独自算出の注目度): 25.352713493505792
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional query processing relies on engines that are carefully optimized and engineered by many experts. However, new techniques and user requirements evolve rapidly, and existing systems often cannot keep pace. At the same time, these systems are difficult to extend due to their internal complexity, and developing new systems requires substantial engineering effort and cost. In this paper, we argue that recent advances in Large Language Models (LLMs) are starting to shape the next generation of query processing systems. We propose using LLMs to synthesize execution code for each incoming query, instead of continuously building, extending, and maintaining complex query processing engines. As a proof of concept, we present GenDB, an LLM-powered agentic system that generates instance-optimized and customized query execution code tailored to specific data, workloads, and hardware resources. We implemented an early prototype of GenDB that uses Claude Code Agent as the underlying component in the multi-agent system, and we evaluate it on OLAP workloads. We use queries from the well-known TPC-H benchmark and also construct a new benchmark designed to reduce potential data leakage from LLM training data. We compare GenDB with state-of-the-art query engines, including DuckDB, Umbra, MonetDB, ClickHouse, and PostgreSQL. GenDB achieves significantly better performance than these systems. Finally, we discuss the current limitations of GenDB and outline future extensions and related research challenges.
- Abstract(参考訳): 従来のクエリ処理は、多くの専門家によって慎重に最適化され、エンジニアリングされるエンジンに依存している。
しかし、新しい技術とユーザー要求は急速に進化し、既存のシステムはペースを維持することができないことが多い。
同時に、これらのシステムは内部の複雑さのために拡張が困難であり、新しいシステムを開発するには相当なエンジニアリングの労力とコストが必要である。
本稿では,Large Language Models (LLM) の最近の進歩が,次世代のクエリ処理システムを形成し始めていることを論じる。
複雑なクエリ処理エンジンを連続的に構築し,拡張し,維持する代わりに,LLMを用いて各クエリの実行コードを合成する。
概念実証として,特定のデータ,ワークロード,ハードウェアリソースに適した,インスタンス最適化およびカスタマイズされたクエリ実行コードを生成する,LLMベースのエージェントシステムであるGenDBを提案する。
我々は、マルチエージェントシステムの基盤コンポーネントとしてClaude Code Agentを使用するGenDBの初期プロトタイプを実装し、OLAPワークロードで評価した。
我々は、よく知られたTPC-Hベンチマークからのクエリを使用し、LLMトレーニングデータからの潜在的なデータ漏洩を低減するために設計された新しいベンチマークを構築した。
我々はGenDBとDuckDB、Umbra、MonetDB、ClickHouse、PostgreSQLといった最先端のクエリエンジンを比較した。
GenDBはこれらのシステムよりも大幅にパフォーマンスが向上する。
最後に、GenDBの現在の限界について論じ、今後の拡張と関連する研究課題について概説する。
関連論文リスト
- ThinkGen: Generalized Thinking for Visual Generation [97.19923474851987]
ThinkGenは、さまざまな世代のシナリオでChain-of-Thought(CoT)推論を明示的に活用する、思考駆動のビジュアル生成フレームワークである。
本稿では,MLLMとDiTモジュール間の強化学習を交互に行う,分離可能なGRPOベースのトレーニングパラダイムを提案する。
実験の結果、ThinkGenは複数の世代ベンチマークで堅牢で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-12-29T16:08:50Z) - A Survey on Parallel Text Generation: From Parallel Decoding to Diffusion Language Models [71.66119575697458]
トークン・バイ・トークン生成のボトルネックを破り、推論効率を向上させることを目的とした並列テキスト生成技術。
既存のアプローチをARベースのパラダイムと非ARベースのパラダイムに分類し、各カテゴリの中核技術について詳細に検討する。
我々は、最近の進歩を強調し、オープンな課題を特定し、並列テキスト生成における将来的な研究の方向性を概説する。
論文 参考訳(メタデータ) (2025-08-12T07:56:04Z) - A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data [0.0]
Retrieval-Augmented Generation (RAG)はLarge Language Models (LLM)を強化する
従来のRAGシステムでは、クエリ生成、データ検索、レスポンス合成に単一エージェントアーキテクチャを使用するのが一般的である。
本稿では,これらの制約に対処するマルチエージェントRAGシステムを提案する。
論文 参考訳(メタデータ) (2024-12-08T07:18:19Z) - Query Performance Explanation through Large Language Model for HTAP Systems [8.278943524339264]
ハイブリッドトランザクションおよび分析処理システムでは、ユーザは、あるエンジンからのクエリプランが他のエンジンよりも遅い理由を理解するのに苦労することが多い。
本稿では,大規模言語モデル(LLM)を活用して,HTAPシステムにおけるクエリ性能を説明する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-02T16:55:07Z) - Towards Evaluating Large Language Models for Graph Query Generation [49.49881799107061]
大言語モデル(LLM)は、生成人工知能(GenAI)の景観に革命をもたらしている
本稿では,オープンアクセス LLM を用いてグラフデータベースと対話する強力な言語としてクエリを生成することの課題について比較検討する。
クエリ生成精度を実証的に分析したところ、Claude Sonnet 3.5は特定のドメインでそれよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-13T09:11:56Z) - Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - MemoRAG: Boosting Long Context Processing with Global Memory-Enhanced Retrieval Augmentation [60.04380907045708]
Retrieval-Augmented Generation (RAG)は、この問題に対処するための有望な戦略と考えられている。
我々は,グローバルメモリ拡張検索による新しいRAGフレームワークであるMemoRAGを提案する。
MemoRAGは、様々な長期コンテキスト評価タスクにおいて優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-09-09T13:20:31Z) - CodeRAG-Bench: Can Retrieval Augment Code Generation? [78.37076502395699]
検索拡張生成を用いたコード生成の系統的,大規模な解析を行う。
まず、コード生成タスクの3つのカテゴリを含む総合的な評価ベンチマークであるCodeRAG-Benchをキュレートする。
CodeRAG-Bench上のトップパフォーマンスモデルについて、1つまたは複数のソースから検索したコンテキストを提供することにより検討する。
論文 参考訳(メタデータ) (2024-06-20T16:59:52Z) - Retrieval Augmented Generation Systems: Automatic Dataset Creation,
Evaluation and Boolean Agent Setup [5.464952345664292]
Retrieval Augmented Generation (RAG) システムは、Large-Language Model (LLM) 出力をドメイン固有データと時間機密データで拡張することで大きな人気を得ている。
本稿では,RAG戦略を定量的に比較するために,厳密なデータセット作成と評価のワークフローを提案する。
論文 参考訳(メタデータ) (2024-02-26T12:56:17Z) - Querying Large Language Models with SQL [16.383179496709737]
多くのユースケースでは、情報はテキストに格納されるが、構造化データでは利用できない。
事前訓練されたLarge Language Models (LLMs) の台頭に伴い、大量のテキストコーパスから抽出された情報を保存および使用するための効果的なソリューションが現在存在する。
本稿では,従来のデータベースアーキテクチャに基づくプロトタイプであるGaloisについて紹介する。
論文 参考訳(メタデータ) (2023-04-02T06:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。