論文の概要: RubikSQL: Lifelong Learning Agentic Knowledge Base as an Industrial NL2SQL System
- arxiv url: http://arxiv.org/abs/2508.17590v1
- Date: Mon, 25 Aug 2025 01:28:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.597895
- Title: RubikSQL: Lifelong Learning Agentic Knowledge Base as an Industrial NL2SQL System
- Title(参考訳): RubikSQL: 産業用NL2SQLシステムとしての生涯学習エージェント知識ベース
- Authors: Zui Chen, Han Li, Xinhao Zhang, Xiaoyu Chen, Chunyin Dong, Yifeng Wang, Xin Cai, Su Zhang, Ziqi Li, Chi Ding, Jinxu Li, Shuai Wang, Dousheng Zhao, Sanhai Gao, Guangyi Liu,
- Abstract要約: Rubikは、現実のエンタープライズレベルのNL2における重要な課題に対処するために設計された、新しいNL2システムである。
Rubik SOTAは、KaggleDBQAとBIRD Mini-Devデータセットの両方のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 22.524161673365697
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present RubikSQL, a novel NL2SQL system designed to address key challenges in real-world enterprise-level NL2SQL, such as implicit intents and domain-specific terminology. RubikSQL frames NL2SQL as a lifelong learning task, demanding both Knowledge Base (KB) maintenance and SQL generation. RubikSQL systematically builds and refines its KB through techniques including database profiling, structured information extraction, agentic rule mining, and Chain-of-Thought (CoT)-enhanced SQL profiling. RubikSQL then employs a multi-agent workflow to leverage this curated KB, generating accurate SQLs. RubikSQL achieves SOTA performance on both the KaggleDBQA and BIRD Mini-Dev datasets. Finally, we release the RubikBench benchmark, a new benchmark specifically designed to capture vital traits of industrial NL2SQL scenarios, providing a valuable resource for future research.
- Abstract(参考訳): 我々は,暗黙の意図やドメイン固有の用語など,現実の企業レベルのNL2SQLにおいて重要な課題に対処するために設計された,新しいNL2SQLシステムであるRubikSQLを紹介する。
RubikSQLは、NL2SQLを生涯の学習タスクとして扱い、知識ベース(KB)のメンテナンスとSQL生成の両方を要求する。
RubikSQLは、データベースプロファイリング、構造化情報抽出、エージェントルールマイニング、CoT(Chain-of-Thought)強化SQLプロファイリングなど、KBを体系的に構築、洗練する。
次に、RubikSQLは、このキュレートKBを活用するためにマルチエージェントワークフローを使用し、正確なSQLを生成する。
RubikSQLは、KaggleDBQAとBIRD Mini-Devデータセットの両方でSOTAパフォーマンスを達成する。
最後に、RubikBenchベンチマークをリリースしました。これは、工業的NL2SQLシナリオの重要な特徴を捉えるために特別に設計された新しいベンチマークで、将来の研究に有用なリソースを提供します。
関連論文リスト
- TailorSQL: An NL2SQL System Tailored to Your Query Workload [16.48291142955493]
最先端のNL2技術は典型的には、データベース固有の情報を取得することによって翻訳を行う。
過去のクエリ処理における情報を活用するNL2システムであるTailorを紹介する。
Tailorは、標準化されたベンチマークの実行精度を最大2$times$改善する。
論文 参考訳(メタデータ) (2025-05-29T03:27:22Z) - Arctic-Text2SQL-R1: Simple Rewards, Strong Reasoning in Text-to-SQL [35.21185734929167]
提案するArctic-Text2-R1は、RLフレームワークとモデルファミリで、正確で実行可能なsqlを生成するように設計されている。
提案手法は、調整された中間監督と複雑な報酬形成を回避し、安定したトレーニングと最終課題との整合性を促進する。
特に、私たちの7Bモデルは70Bクラスのシステムよりも優れており、フレームワークのスケーラビリティと効率性を強調しています。
論文 参考訳(メタデータ) (2025-05-22T23:33:47Z) - Dialect2SQL: A Novel Text-to-SQL Dataset for Arabic Dialects with a Focus on Moroccan Darija [5.762345156477737]
この研究はアラビア方言における最初の大規模クロスドメインテキスト・トゥ・IDERデータセットを導入している。
69のデータベースにまたがる9,428のNLQ-ペアで構成されている。
このデータセットはまた、その原語で知られているモロッコ方言の複雑さも含んでいる。
論文 参考訳(メタデータ) (2025-01-20T14:06:40Z) - A Survey of Text-to-SQL in the Era of LLMs: Where are we, and where are we going? [32.84561352339466]
我々は,Large Language Models (LLMs) を利用したテキスト翻訳技術についてレビューする。
LLM時代におけるテキスト・ツー・アセスメントの研究課題とオープンな課題について論じる。
論文 参考訳(メタデータ) (2024-08-09T14:59:36Z) - Blar-SQL: Faster, Stronger, Smaller NL2SQL [0.0]
データベースの理解とクエリ生成において,タスクの分解が大規模言語モデル(LLM)に大きな利益をもたらすことを示す。
我々は、より多くの情報を限られたコンテキストに適合させるために、スキーマをチャンクに分割する新しいフレームワークを提案する。
その結果,GPT-4はGPT-4の135倍,90倍,100倍以上の速さであった。
論文 参考訳(メタデータ) (2024-01-04T16:50:52Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。