論文の概要: Prefix-to-SQL: Text-to-SQL Generation from Incomplete User Questions
- arxiv url: http://arxiv.org/abs/2109.13066v3
- Date: Thu, 30 Sep 2021 02:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-03 10:41:24.663429
- Title: Prefix-to-SQL: Text-to-SQL Generation from Incomplete User Questions
- Title(参考訳): Prefix-to-SQL: 不完全なユーザ質問からのテキストからSQL生成
- Authors: Naihao Deng, Shuaichen Chang, Peng Shi, Tao Yu, Rui Zhang
- Abstract要約: 本稿では,ユーザから質問文を入力として取り出して,意図したsqlを予測する,新しいタスクであるPremction-to-Queryを提案する。
我々はPAGSASと呼ばれる新しいベンチマークを構築し、124Kのユーザ質問プレフィックスと5つのサブタスクのアドバイス、GeoQuery、Scholar、ATIS、Spiderを含む。
省略トークンの数にプレフィックス・ツー・クエリの難しさが関係しているのを観察するため,サンプルの摂食に関するカリキュラム学習と,省略トークンの数の増加について考察する。
- 参考スコア(独自算出の注目度): 33.48258057604425
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing text-to-SQL research only considers complete questions as the input,
but lay-users might strive to formulate a complete question. To build a smarter
natural language interface to database systems (NLIDB) that also processes
incomplete questions, we propose a new task, prefix-to-SQL which takes question
prefix from users as the input and predicts the intended SQL. We construct a
new benchmark called PAGSAS that contains 124K user question prefixes and the
intended SQL for 5 sub-tasks Advising, GeoQuery, Scholar, ATIS, and Spider.
Additionally, we propose a new metric SAVE to measure how much effort can be
saved by users. Experimental results show that PAGSAS is challenging even for
strong baseline models such as T5. As we observe the difficulty of
prefix-to-SQL is related to the number of omitted tokens, we incorporate
curriculum learning of feeding examples with an increasing number of omitted
tokens. This improves scores on various sub-tasks by as much as 9% recall
scores on sub-task GeoQuery in PAGSAS.
- Abstract(参考訳): 既存のtext-to-sql研究は、完全な質問を入力としか考えていないが、素人は完全な質問を定式化しようと努力するかもしれない。
データベースシステム(nlidb)に対するよりスマートな自然言語インタフェースを構築するために、ユーザからの質問プレフィックスを入力として、意図するsqlを予測する新しいタスクプレフィックスto-sqlを提案する。
我々はPAGSASと呼ばれる新しいベンチマークを構築し、124Kのユーザ質問プレフィックスと、アドバイス、GeoQuery、Scholar、ATIS、Spiderの5つのサブタスク用のSQLを含む。
さらに,ユーザがどれだけの労力を節約できるかを計測する新しい指標SAVEを提案する。
実験の結果, PAGSASはT5のような強力なベースラインモデルにおいても困難であることがわかった。
省略トークンの数に先行SQLの難しさが関係しているのを観察するため、サンプルを供給するためのカリキュラム学習と、省略トークンの数の増加を取り入れた。
これにより、pagsasのサブタスクgeoqueryにおける9%のリコールスコアが、様々なサブタスクのスコアを改善する。
関連論文リスト
- Decoupling SQL Query Hardness Parsing for Text-to-SQL [2.30258928355895]
本稿では,問合せ難易度解析の分離に基づくテキスト対結合のための革新的なフレームワークを提案する。
このフレームワークは、質問やスキーマを分析することで、クエリの難しさに基づいて、Text-to-coupleタスクを分離し、マルチハーネスタスクを単一ハーネスチャレンジに単純化する。
論文 参考訳(メタデータ) (2023-12-11T07:20:46Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Know What I don't Know: Handling Ambiguous and Unanswerable Questions
for Text-to-SQL [36.5089235153207]
既存のtext-to-Yourself は任意のユーザ質問に対して "plausible" クエリを生成する。
本稿では,不明瞭かつ解決不可能な例を自動的に生成する,シンプルで効果的な生成手法を提案する。
実験結果から,実例と生成例の両方において,本モデルが最も優れた結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-17T15:32:00Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - Dual Reader-Parser on Hybrid Textual and Tabular Evidence for Open
Domain Question Answering [78.9863753810787]
世界の知識は構造化データベースに保存されている。
クエリ言語は、複雑な推論を必要とする質問に答えるだけでなく、完全な説明可能性を提供することができる。
論文 参考訳(メタデータ) (2021-08-05T22:04:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Did You Ask a Good Question? A Cross-Domain Question Intention
Classification Benchmark for Text-to-SQL [32.946103197082124]
Triageは、最初のクロスドメインテキストツークエスト分類ベンチマークである。
4種類の解答不可能な質問と解答可能な質問を区別するモデルが必要である。
RoBERTaモデルは、テストセット上で60%のF1スコアを達成する。
論文 参考訳(メタデータ) (2020-10-23T19:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。