論文の概要: DBCopilot: Scaling Natural Language Querying to Massive Databases
- arxiv url: http://arxiv.org/abs/2312.03463v2
- Date: Tue, 23 Apr 2024 08:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:35:42.456445
- Title: DBCopilot: Scaling Natural Language Querying to Massive Databases
- Title(参考訳): DBCopilot: 大規模データベースへの自然言語クエリのスケーリング
- Authors: Tianshu Wang, Hongyu Lin, Xianpei Han, Le Sun, Xiaoyang Chen, Hao Wang, Zhenyu Zeng,
- Abstract要約: 既存の方法は、大規模で動的に変化するデータベースを扱う際に、スケーラビリティの課題に直面します。
本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベース間のルーティングにコンパクトで柔軟なコピロットモデルを用いるフレームワークである。
- 参考スコア(独自算出の注目度): 47.009638761948466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-SQL simplifies database interactions by enabling non-experts to convert their natural language (NL) questions into Structured Query Language (SQL) queries. While recent advances in large language models (LLMs) have improved the zero-shot text-to-SQL paradigm, existing methods face scalability challenges when dealing with massive, dynamically changing databases. This paper introduces DBCopilot, a framework that addresses these challenges by employing a compact and flexible copilot model for routing across massive databases. Specifically, DBCopilot decouples the text-to-SQL process into schema routing and SQL generation, leveraging a lightweight sequence-to-sequence neural network-based router to formulate database connections and navigate natural language questions through databases and tables. The routed schemas and questions are then fed into LLMs for efficient SQL generation. Furthermore, DBCopilot also introduced a reverse schema-to-question generation paradigm, which can learn and adapt the router over massive databases automatically without requiring manual intervention. Experimental results demonstrate that DBCopilot is a scalable and effective solution for real-world text-to-SQL tasks, providing a significant advancement in handling large-scale schemas.
- Abstract(参考訳): Text-to-SQLは、非専門家が自然言語(NL)質問を構造化クエリ言語(SQL)クエリに変換することによって、データベースのインタラクションを単純化する。
大規模言語モデル(LLM)の最近の進歩は、ゼロショットのテキスト-SQLパラダイムを改善したが、既存の手法は、大規模で動的に変化するデータベースを扱う際にスケーラビリティの問題に直面している。
本稿では,DBCopilotについて紹介する。DBCopilotは,大規模データベースをルーティングするためのコンパクトで柔軟なコピロモデルを用いて,これらの課題に対処するフレームワークである。
具体的には、DBCopilotは、テキストからSQLまでのプロセスをスキーマルーティングとSQL生成に分離し、軽量なシーケンスからシーケンスのニューラルネットワークベースのルータを活用して、データベース接続を定式化し、データベースとテーブルを介して自然言語の質問をナビゲートする。
ルーティングされたスキーマと質問は、効率的なSQL生成のためにLLMに入力される。
さらに、DBCopilotはリバーススキーマ・ツー・クエクション生成パラダイムも導入しており、手作業による介入を必要とせずに、大規模なデータベース上でルータを学習し、自動的に適応することができる。
実験の結果、DBCopilotは現実世界のテキスト-SQLタスクに対してスケーラブルで効果的なソリューションであり、大規模なスキーマを扱う上で大きな進歩をもたらすことが示されている。
関連論文リスト
- Semantic Parsing for Complex Data Retrieval: Targeting Query Plans vs.
SQL for No-Code Access to Relational Databases [2.933060994339853]
より単純な構文と複雑なクエリのモジュール仕様を備えた代替クエリ言語の可能性について検討する。
提案されている代替クエリ言語はQuery Plan Language (QPL) と呼ばれる。
複雑なクエリの課題に対して,反復的かつユーザ制御的な方法で対処する方法を提案する。
論文 参考訳(メタデータ) (2023-12-22T16:16:15Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - Retrieval-augmented GPT-3.5-based Text-to-SQL Framework with
Sample-aware Prompting and Dynamic Revision Chain [21.593701177605652]
サンプルと動的リビジョンチェーンを含むテキスト・ツー・アウェア・プロンプト・フレームワークを提案する。
提案手法は,質問項目のサンプルと詳細な情報を含む。
人間の介入なしに実行可能で正確なスクルを生成するために、我々は、きめ細かいフィードバックを反復的に適応する動的リビジョンチェーンを設計する。
論文 参考訳(メタデータ) (2023-07-11T07:16:22Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Interactive Text-to-SQL Generation via Editable Step-by-Step
Explanations [31.3376894001311]
本稿では,ユーザがクエリのステップバイステップ説明を直接編集してエラーを修正する,新たなインタラクションメカニズムを提案する。
複数のデータセットに対する我々の実験は、24人の参加者を持つユーザとともに、我々のアプローチが複数のSOTAアプローチより優れていることを実証している。
論文 参考訳(メタデータ) (2023-05-12T10:45:29Z) - Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton
Retrieval [17.747079214502673]
Text-to-は、自然言語の質問を構造化されたクエリ言語()に変換し、データベースから情報を取得するタスクである。
本稿では,テキスト・トゥ・テキストのための LLM ベースのフレームワークを提案する。
我々は,疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似した例を検索する。
論文 参考訳(メタデータ) (2023-04-26T06:02:01Z) - xDBTagger: Explainable Natural Language Interface to Databases Using
Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。
我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。
xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文 参考訳(メタデータ) (2022-10-07T18:17:09Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。