論文の概要: Weakly Supervised Mapping of Natural Language to SQL through Question
Decomposition
- arxiv url: http://arxiv.org/abs/2112.06311v1
- Date: Sun, 12 Dec 2021 20:02:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-14 15:08:43.907835
- Title: Weakly Supervised Mapping of Natural Language to SQL through Question
Decomposition
- Title(参考訳): 質問分解による自然言語のSQLへのマッピングについて
- Authors: Tomer Wolfson, Jonathan Berant and Daniel Deutch
- Abstract要約: 我々は、弱い監督力を用いて機械学習に基づくNLIDBを訓練するための代替手法を提案する。
我々は最近提案されたQDMR(QDMR)と呼ばれる質問分解表現を用いて、NL言語と形式的クエリ言語の間の中間となる。
専門家アノテーションが不要な私たちのソリューションは、専門家注釈付きデータに基づいてトレーニングされたモデルと競争的に機能します。
- 参考スコア(独自算出の注目度): 39.32886310973576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural Language Interfaces to Databases (NLIDBs), where users pose queries
in Natural Language (NL), are crucial for enabling non-experts to gain insights
from data. Developing such interfaces, by contrast, is dependent on experts who
often code heuristics for mapping NL to SQL. Alternatively, NLIDBs based on
machine learning models rely on supervised examples of NL to SQL mappings
(NL-SQL pairs) used as training data. Such examples are again procured using
experts, which typically involves more than a one-off interaction. Namely, each
data domain in which the NLIDB is deployed may have different characteristics
and therefore require either dedicated heuristics or domain-specific training
examples. To this end, we propose an alternative approach for training machine
learning-based NLIDBs, using weak supervision. We use the recently proposed
question decomposition representation called QDMR, an intermediate between NL
and formal query languages. Recent work has shown that non-experts are
generally successful in translating NL to QDMR. We consequently use NL-QDMR
pairs, along with the question answers, as supervision for automatically
synthesizing SQL queries. The NL questions and synthesized SQL are then used to
train NL-to-SQL models, which we test on five benchmark datasets. Extensive
experiments show that our solution, requiring zero expert annotations, performs
competitively with models trained on expert annotated data.
- Abstract(参考訳): ユーザが自然言語(nl)でクエリをポーズするnlidb(natural language interface to database)は、非専門家がデータから洞察を得ることを可能にする上で極めて重要である。
対照的にこのようなインターフェースの開発は、NLをSQLにマッピングするためのヒューリスティックをコードする専門家に依存している。
あるいは、機械学習モデルに基づくNLIDBは、トレーニングデータとして使用されるNLからSQLマッピング(NL-SQLペア)の教師付き例に依存している。
このような例は専門家によって再度調達され、通常は1対1以上の相互作用が伴う。
すなわち、nlidbがデプロイされる各データドメインは、異なる特性を持つため、専用のヒューリスティックまたはドメイン固有のトレーニング例を必要とする。
そこで本研究では,機械学習に基づくNLIDBを訓練するための代替手法を提案する。
最近提案されたqdmrという質問分解表現は、nlと形式的問合せ言語の間に位置する。
近年の研究では、非専門家が一般的にNLをQDMRに変換することに成功した。
その結果、NL-QDMRペアと質問応答をSQLクエリの自動合成の監督として使用する。
次に、NL質問と合成SQLを使用して、NL-to-SQLモデルのトレーニングを行い、5つのベンチマークデータセットでテストする。
大規模な実験により、専門家のアノテーションが不要なソリューションは、専門家の注釈付きデータに基づいてトレーニングされたモデルと競合することがわかった。
関連論文リスト
- Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。
我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。
提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。
微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:04:27Z) - Natural language to SQL in low-code platforms [0.0]
自然言語(NL)クエリを記述可能なパイプラインを提案する。
OutSystemsユーザによって最も頻繁に実行されるクエリをカバーするデータを収集、ラベル付け、検証します。
パイプライン全体について説明します。フィードバックループによって,運用データの迅速な収集が可能になります。
論文 参考訳(メタデータ) (2023-08-29T11:59:02Z) - ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural
Language to SQL Systems [16.33799752421288]
我々はScienceBenchmarkを紹介した。これは3つの現実世界、ドメイン固有のデータベースのための、新しい複雑なNL-to-ベンチマークである。
Spiderの上位パフォーマンスシステムがベンチマークで非常に低いパフォーマンスを達成するため、我々のベンチマークは非常に難しいことを示しています。
論文 参考訳(メタデータ) (2023-06-07T19:37:55Z) - STAR: SQL Guided Pre-Training for Context-dependent Text-to-SQL Parsing [64.80483736666123]
文脈依存型テキスト・ツー・パースのための新しい事前学習フレームワークSTARを提案する。
さらに,STARを事前学習するための大規模コンテキスト依存型テキスト対話コーパスを構築した。
大規模な実験により、STARは2つの下流ベンチマークで新しい最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2022-10-21T11:30:07Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z) - ValueNet: A Natural Language-to-SQL System that Learns from Database
Information [4.788755317132195]
データベースの自然言語インターフェースの構築は、長年にわたる課題だった。
最近の研究は、スパイダーのような複雑なデータセットにこの課題に取り組むニューラルネットワークに焦点を当てている。
そこで本研究では,この課題を生かした2つのNL-to-endシステムを提案する。
論文 参考訳(メタデータ) (2020-05-29T15:43:39Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。