論文の概要: Weakly Supervised Mapping of Natural Language to SQL through Question
Decomposition
- arxiv url: http://arxiv.org/abs/2112.06311v1
- Date: Sun, 12 Dec 2021 20:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:08:43.907835
- Title: Weakly Supervised Mapping of Natural Language to SQL through Question
Decomposition
- Title(参考訳): 質問分解による自然言語のSQLへのマッピングについて
- Authors: Tomer Wolfson, Jonathan Berant and Daniel Deutch
- Abstract要約: 我々は、弱い監督力を用いて機械学習に基づくNLIDBを訓練するための代替手法を提案する。
我々は最近提案されたQDMR(QDMR)と呼ばれる質問分解表現を用いて、NL言語と形式的クエリ言語の間の中間となる。
専門家アノテーションが不要な私たちのソリューションは、専門家注釈付きデータに基づいてトレーニングされたモデルと競争的に機能します。
- 参考スコア(独自算出の注目度): 39.32886310973576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Interfaces to Databases (NLIDBs), where users pose queries
in Natural Language (NL), are crucial for enabling non-experts to gain insights
from data. Developing such interfaces, by contrast, is dependent on experts who
often code heuristics for mapping NL to SQL. Alternatively, NLIDBs based on
machine learning models rely on supervised examples of NL to SQL mappings
(NL-SQL pairs) used as training data. Such examples are again procured using
experts, which typically involves more than a one-off interaction. Namely, each
data domain in which the NLIDB is deployed may have different characteristics
and therefore require either dedicated heuristics or domain-specific training
examples. To this end, we propose an alternative approach for training machine
learning-based NLIDBs, using weak supervision. We use the recently proposed
question decomposition representation called QDMR, an intermediate between NL
and formal query languages. Recent work has shown that non-experts are
generally successful in translating NL to QDMR. We consequently use NL-QDMR
pairs, along with the question answers, as supervision for automatically
synthesizing SQL queries. The NL questions and synthesized SQL are then used to
train NL-to-SQL models, which we test on five benchmark datasets. Extensive
experiments show that our solution, requiring zero expert annotations, performs
competitively with models trained on expert annotated data.
- Abstract(参考訳): ユーザが自然言語(nl)でクエリをポーズするnlidb(natural language interface to database)は、非専門家がデータから洞察を得ることを可能にする上で極めて重要である。
対照的にこのようなインターフェースの開発は、NLをSQLにマッピングするためのヒューリスティックをコードする専門家に依存している。
あるいは、機械学習モデルに基づくNLIDBは、トレーニングデータとして使用されるNLからSQLマッピング(NL-SQLペア)の教師付き例に依存している。
このような例は専門家によって再度調達され、通常は1対1以上の相互作用が伴う。
すなわち、nlidbがデプロイされる各データドメインは、異なる特性を持つため、専用のヒューリスティックまたはドメイン固有のトレーニング例を必要とする。
そこで本研究では,機械学習に基づくNLIDBを訓練するための代替手法を提案する。
最近提案されたqdmrという質問分解表現は、nlと形式的問合せ言語の間に位置する。
近年の研究では、非専門家が一般的にNLをQDMRに変換することに成功した。
その結果、NL-QDMRペアと質問応答をSQLクエリの自動合成の監督として使用する。
次に、NL質問と合成SQLを使用して、NL-to-SQLモデルのトレーニングを行い、5つのベンチマークデータセットでテストする。
大規模な実験により、専門家のアノテーションが不要なソリューションは、専門家の注釈付きデータに基づいてトレーニングされたモデルと競合することがわかった。
関連論文リスト
- SQLformer: Deep Auto-Regressive Query Graph Generation for Text-to-SQL Translation [16.07396492960869]
本稿では,テキストからテキストへの変換処理に特化して設計されたトランスフォーマーアーキテクチャを提案する。
我々のモデルは、実行可能層とデコーダ層に構造的帰納バイアスを組み込んで、クエリを自動で抽象構文木(AST)として予測する。
論文 参考訳(メタデータ) (2023-10-27T00:13:59Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Error Detection for Text-to-SQL Semantic Parsing [18.068244400731366]
現代のテキスト・トゥ・セマンティクスは、しばしば過信であり、実際の使用のためにデプロイされた際の信頼性に疑問を呈する。
本稿では,テキスト間セマンティック解析のためのa-独立誤差検出モデルを提案する。
論文 参考訳(メタデータ) (2023-05-23T04:44:22Z) - Towards Generalizable and Robust Text-to-SQL Parsing [77.18724939989647]
本稿では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案する。
このフレームワークは,Spider,SParC,Co.データセット上でのすべてのシナリオと最先端のパフォーマンスに有効であることを示す。
論文 参考訳(メタデータ) (2022-10-23T09:21:27Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - CQR-SQL: Conversational Question Reformulation Enhanced
Context-Dependent Text-to-SQL Parsers [35.36754559708944]
コンテキスト依存型テキスト参照は、マルチターン質問をデータベース関連のクエリに変換するタスクである。
本稿では,CQR-Coupleを提案する。このCQR-Coupleは,CQR学習を用いて,文脈依存のforsql解析を明示的に活用し,分離する。
執筆時点で、我々のCQRカップリングは2つの文脈依存ベンチマークSParCとCoに対して、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-05-16T13:52:42Z) - S$^2$SQL: Injecting Syntax to Question-Schema Interaction Graph Encoder
for Text-to-SQL Parsers [66.78665327694625]
テキスト-関係解析のための質問-エンコーダグラフに構文を注入するS$2$を提案する。
また、疎結合制約を用いて多様なエッジ埋め込みを誘導し、ネットワークの性能をさらに向上させる。
スパイダーとロバスト性設定の実験は、提案手法が事前学習モデルを使用する場合、既存のすべての手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-03-14T09:49:15Z) - Natural SQL: Making SQL Easier to Infer from Natural Language
Specifications [15.047104267689052]
我々はNatural SQL(Nat)と呼ばれるSQL中間表現を提案する。
挑戦的なテキスト・ツー・スキーマのベンチマークであるSpiderでは、Natが他のIRより優れており、以前のSOTAモデルの性能が大幅に向上することを示した。
実行可能生成をサポートしない既存のモデルでは、Natは実行可能クエリを容易に生成することができ、新しい最先端実行精度を実現する。
論文 参考訳(メタデータ) (2021-09-11T01:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。