論文の概要: Natural language to SQL in low-code platforms
- arxiv url: http://arxiv.org/abs/2308.15239v1
- Date: Tue, 29 Aug 2023 11:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 14:17:20.817587
- Title: Natural language to SQL in low-code platforms
- Title(参考訳): ローコードプラットフォームの自然言語とsql
- Authors: Sofia Aparicio, Samuel Arcadinho, Jo\~ao Nadkarni, David Apar\'icio,
Jo\~ao Lages, Mariana Louren\c{c}o, Bart{\l}omiej Matejczyk, Filipe
Assun\c{c}\~ao
- Abstract要約: 自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: One of the developers' biggest challenges in low-code platforms is retrieving
data from a database using SQL queries. Here, we propose a pipeline allowing
developers to write natural language (NL) to retrieve data. In this study, we
collect, label, and validate data covering the SQL queries most often performed
by OutSystems users. We use that data to train a NL model that generates SQL.
Alongside this, we describe the entire pipeline, which comprises a feedback
loop that allows us to quickly collect production data and use it to retrain
our SQL generation model. Using crowd-sourcing, we collect 26k NL and SQL pairs
and obtain an additional 1k pairs from production data. Finally, we develop a
UI that allows developers to input a NL query in a prompt and receive a
user-friendly representation of the resulting SQL query. We use A/B testing to
compare four different models in production and observe a 240% improvement in
terms of adoption of the feature, 220% in terms of engagement rate, and a 90%
decrease in failure rate when compared against the first model that we put into
production, showcasing the effectiveness of our pipeline in continuously
improving our feature.
- Abstract(参考訳): ローコードプラットフォームにおける開発者の最大の課題のひとつは、SQLクエリを使用してデータベースからデータを取得することだ。
本稿では,自然言語(nl)を記述してデータを取得するパイプラインを提案する。
本研究では,outsystemsユーザが最も頻繁に実行するsqlクエリをカバーするデータの収集,ラベル付け,検証を行う。
このデータを使ってSQLを生成するNLモデルをトレーニングします。
これに加えて、フィードバックループを含むパイプライン全体を記述し、プロダクションデータを迅速に収集し、SQL生成モデルの再トレーニングに使用することができます。
クラウドソーシングを用いて26k nlとsqlペアを収集し,本番データからさらに1kペアを取得する。
最後に、開発者がプロンプトでNLクエリを入力し、結果のSQLクエリのユーザフレンドリな表現を受け取ることができるUIを開発する。
A/Bテストは4つの異なるモデルを比較し、機能の採用率で240%の改善、エンゲージメント率で220%、本番環境に投入した最初のモデルと比較して90%の失敗率の低下を観察し、継続的に機能を改善する上でのパイプラインの有効性を示します。
関連論文リスト
- TrustSQL: Benchmarking Text-to-SQL Reliability with Penalty-Based Scoring [11.78795632771211]
本稿では,任意の入力質問を正しく処理するモデルとして,テキスト・ツー・信頼性を評価するための新しいベンチマークを提案する。
2つのモデリング手法を用いて,新たなペナルティに基づく評価基準を用いた既存手法の評価を行った。
論文 参考訳(メタデータ) (2024-03-23T16:12:52Z) - Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。
我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。
提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。
微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:04:27Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation [13.196264569882777]
現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
論文 参考訳(メタデータ) (2023-05-10T10:01:36Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。