論文の概要: SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation
- arxiv url: http://arxiv.org/abs/2305.11061v1
- Date: Wed, 10 May 2023 10:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-21 10:25:33.467251
- Title: SPSQL: Step-by-step Parsing Based Framework for Text-to-SQL Generation
- Title(参考訳): SPSQL: テキストからSQL生成のためのステップバイステップ解析ベースのフレームワーク
- Authors: Ran Shen, Gang Sun, Hao Shen, Yiling Li, Liangfeng Jin and Han Jiang
- Abstract要約: 現在の主流のエンド・ツー・エンドのText2モデルは、複雑な構造とトレーニングデータに対する高い要求のために構築が困難であるだけでなく、大量のパラメータのために調整も困難である。
本稿では,所望の結果を得るために,SP実験というパイプライン手法を提案する。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
- 参考スコア(独自算出の注目度): 13.196264569882777
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Converting text into the structured query language (Text2SQL) is a research
hotspot in the field of natural language processing (NLP), which has broad
application prospects. In the era of big data, the use of databases has
penetrated all walks of life, in which the collected data is large in scale,
diverse in variety, and wide in scope, making the data query cumbersome and
inefficient, and putting forward higher requirements for the Text2SQL model. In
practical applications, the current mainstream end-to-end Text2SQL model is not
only difficult to build due to its complex structure and high requirements for
training data, but also difficult to adjust due to massive parameters. In
addition, the accuracy of the model is hard to achieve the desired result.
Based on this, this paper proposes a pipelined Text2SQL method: SPSQL. This
method disassembles the Text2SQL task into four subtasks--table selection,
column selection, SQL generation, and value filling, which can be converted
into a text classification problem, a sequence labeling problem, and two text
generation problems, respectively. Then, we construct data formats of different
subtasks based on existing data and improve the accuracy of the overall model
by improving the accuracy of each submodel. We also use the named entity
recognition module and data augmentation to optimize the overall model. We
construct the dataset based on the marketing business data of the State Grid
Corporation of China. Experiments demonstrate our proposed method achieves the
best performance compared with the end-to-end method and other pipeline
methods.
- Abstract(参考訳): テキストを構造化クエリ言語(Text2SQL)に変換することは、自然言語処理(NLP)分野におけるホットスポットであり、幅広い応用可能性を持っている。
ビッグデータの時代において、データベースの使用は、収集されたデータが大規模で多種多様で、範囲が広い、データクエリが煩雑で非効率になり、Text2SQLモデルのより高い要求を推し進める、あらゆる生活の歩みを浸透させてきた。
実用的なアプリケーションでは、現在のメインストリームのend-to-end text2sqlモデルは、複雑な構造とトレーニングデータに対する高い要件のため構築が困難であるだけでなく、巨大なパラメータによる調整も困難である。
さらに、モデルの精度は、望ましい結果を達成するのが困難である。
そこで本稿では,パイプライン化されたtext2sqlメソッドspsqlを提案する。
この方法は、Text2SQLタスクをテーブル選択、列選択、SQL生成、値フィリングの4つのサブタスクに分解し、テキスト分類問題、シーケンスラベリング問題、および2つのテキスト生成問題に変換する。
そして,既存のデータに基づいて異なるサブタスクのデータフォーマットを構築し,各サブモデルの精度を向上させることにより,全体モデルの精度を向上させる。
モデル全体の最適化には、名前付きエンティティ認識モジュールとデータ拡張も使用しています。
我々は,中国のステートグリッドコーポレーションのマーケティングビジネスデータに基づくデータセットを構築した。
実験により,提案手法はエンド・ツー・エンド法および他のパイプライン法と比較して最高の性能を示す。
関連論文リスト
- Bridging the Gap: Enabling Natural Language Queries for NoSQL Databases through Text-to-NoSQL Translation [25.638927795540454]
自然言語クエリをアクセス可能なクエリに変換することを目的としたText-to-Noタスクを導入する。
この分野での研究を促進するために、我々はTEND(Text-to-Noデータセットのショートインターフェース)という、このタスクのための大規模かつオープンソースのデータセットをリリースした。
また,SLM(Small Language Model)支援とRAG(Retrieval-augmented Generation)支援の多段階フレームワークSMARTを設計した。
論文 参考訳(メタデータ) (2025-02-16T17:01:48Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [5.8226163227899645]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文 参考訳(メタデータ) (2024-02-13T10:28:57Z) - SQLPrompt: In-Context Text-to-SQL with Minimal Labeled Data [54.69489315952524]
Prompt"は、Text-to-LLMのいくつかのショットプロンプト機能を改善するように設計されている。
Prompt"は、ラベル付きデータが少なく、テキスト内学習における従来のアプローチよりも大きなマージンで優れている。
emphPromptはテキスト内学習における従来の手法よりも優れており,ラベル付きデータはほとんどない。
論文 参考訳(メタデータ) (2023-11-06T05:24:06Z) - Reboost Large Language Model-based Text-to-SQL, Text-to-Python, and
Text-to-Function -- with Real Applications in Traffic Domain [14.194710636073808]
これまでのSOTA(State-of-the-art)手法は、スパイダーデータセット上で顕著な実行精度を達成した。
より適応的で汎用的なプロンプト手法を開発し、クエリの書き直しとsqlの高速化を行う。
ビジネスデータセットの実行精度については,SOTA法が21.05,我々のアプローチが65.79であった。
論文 参考訳(メタデータ) (2023-10-28T16:32:40Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Wav2SQL: Direct Generalizable Speech-To-SQL Parsing [55.10009651476589]
Speech-to-Spider (S2Spider) は、与えられたデータベースに対する音声質問をsqlクエリに変換することを目的としている。
ケースドシステム間の誤り合成を回避した,最初の直接音声-話者パーシングモデルWav2を提案する。
実験結果から,Wav2は誤差混成を回避し,ベースラインの精度を最大2.5%向上させることで最先端の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-05-21T19:26:46Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。