論文の概要: ValueNet: A Natural Language-to-SQL System that Learns from Database
Information
- arxiv url: http://arxiv.org/abs/2006.00888v2
- Date: Mon, 22 Feb 2021 09:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 23:39:43.792827
- Title: ValueNet: A Natural Language-to-SQL System that Learns from Database
Information
- Title(参考訳): valuenet:データベース情報から学ぶ自然言語からsqlへのシステム
- Authors: Ursin Brunner and Kurt Stockinger
- Abstract要約: データベースの自然言語インターフェースの構築は、長年にわたる課題だった。
最近の研究は、スパイダーのような複雑なデータセットにこの課題に取り組むニューラルネットワークに焦点を当てている。
そこで本研究では,この課題を生かした2つのNL-to-endシステムを提案する。
- 参考スコア(独自算出の注目度): 4.788755317132195
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Building natural language (NL) interfaces for databases has been a
long-standing challenge for several decades. The major advantage of these
so-called NL-to-SQL systems is that end-users can query complex databases
without the need to know SQL or the underlying database schema. Due to
significant advancements in machine learning, the recent focus of research has
been on neural networks to tackle this challenge on complex datasets like
Spider. Several recent NL-to-SQL systems achieve promising results on this
dataset. However, none of the published systems, that provide either the source
code or executable binaries, extract and incorporate values from the user
questions for generating SQL statements. Thus, the practical use of these
systems in a real-world scenario has not been sufficiently demonstrated yet.
In this paper we propose ValueNet light and ValueNet -- two end-to-end
NL-to-SQL systems that incorporate values using the challenging Spider dataset.
The main idea of our approach is to use not only metadata information from the
underlying database but also information on the base data as input for our
neural network architecture. In particular, we propose a novel architecture
sketch to extract values from a user question and come up with possible value
candidates which are not explicitly mentioned in the question. We then use a
neural model based on an encoder-decoder architecture to synthesize the SQL
query. Finally, we evaluate our model on the Spider challenge using the
Execution Accuracy metric, a more difficult metric than used by most
participants of the challenge. Our experimental evaluation demonstrates that
ValueNet light and ValueNet reach state-of-the-art results of 67% and 62%
accuracy, respectively, for translating from NL to SQL whilst incorporating
values.
- Abstract(参考訳): データベースのための自然言語(nl)インターフェースの構築は、数十年にわたって長年の課題でした。
いわゆるNL-to-SQLシステムの大きな利点は、エンドユーザがSQLや基盤となるデータベーススキーマを知る必要なしに複雑なデータベースをクエリできることだ。
機械学習の大幅な進歩により、最近の研究の焦点は、スパイダーのような複雑なデータセットにこの課題に取り組むニューラルネットワークである。
最近のNL-to-SQLシステムは、このデータセットで有望な結果が得られる。
しかし、ソースコードまたは実行可能なバイナリを提供する公開システムでは、sqlステートメントを生成するためのユーザ質問から値を抽出し、組み込むことはできない。
したがって、現実のシナリオにおけるこれらのシステムの実用化はまだ十分に実証されていない。
本稿では,nl-to-sqlの2つのエンド・ツー・エンドシステムであるvaluenet lightとvaluenetを提案する。
このアプローチの主な考え方は、基盤となるデータベースのメタデータ情報だけでなく、ベースデータの情報をニューラルネットワークアーキテクチャの入力として使用することです。
特に,ユーザ質問から価値を抽出し,その質問で明示的に言及されていない可能性のある価値候補を導き出す,新たなアーキテクチャスケッチを提案する。
次に、エンコーダ-デコーダアーキテクチャに基づくニューラルモデルを用いてSQLクエリを合成する。
最後に,課題の参加者のほとんどが使用するよりも難しい指標であるExecution Accuracy Metricsを用いて,スパイダーチャレンジのモデルを評価する。
実験の結果,nl から sql への変換において valuenet light と valuenet はそれぞれ 67% と 62% の精度で最先端に到達できることが実証された。
関連論文リスト
- Spider 2.0: Evaluating Language Models on Real-World Enterprise Text-to-SQL Workflows [64.94146689665628]
Spider 2.0は、エンタープライズレベルのデータベースのユースケースから派生した、現実のテキストからsqlの問題に対する評価フレームワークである。
Spider 2.0のデータベースは、実際のデータアプリケーションからソースされ、1,000以上の列を含み、BigQueryやSnowflakeなどのローカルまたはクラウドデータベースシステムに格納されることが多い。
Spider 2.0の問題解決には、データベースメタデータ、方言文書、さらにはプロジェクトレベルの理解と検索が頻繁に必要であることを示す。
論文 参考訳(メタデータ) (2024-11-12T12:52:17Z) - CodeS: Towards Building Open-source Language Models for Text-to-SQL [42.11113113574589]
1Bから15Bまでのパラメータを持つ事前学習言語モデルであるCodeSを紹介する。
CodeSは完全にオープンな言語モデルであり、パラメータサイズをはるかに小さくすることで精度が向上する。
我々は、広く使われているスパイダーベンチマークを含む、複数のデータセットの包括的な評価を行う。
論文 参考訳(メタデータ) (2024-02-26T07:00:58Z) - Evaluating the Data Model Robustness of Text-to-SQL Systems Based on Real User Queries [4.141402725050671]
本論文は,テキスト・ツー・システムのデータモデルロバスト性について,実際に評価した最初の事例である。
サッカーDBはFIFAワールドカップ2022の文脈で9ヶ月にわたって展開されたシステムである。
データはすべて、システムにライブで質問された実際のユーザ質問に基づいています。これらの質問のサブセットを手動でラベル付けし、3つの異なるデータモデルに翻訳しました。
論文 参考訳(メタデータ) (2024-02-13T10:28:57Z) - ScienceBenchmark: A Complex Real-World Benchmark for Evaluating Natural
Language to SQL Systems [16.33799752421288]
我々はScienceBenchmarkを紹介した。これは3つの現実世界、ドメイン固有のデータベースのための、新しい複雑なNL-to-ベンチマークである。
Spiderの上位パフォーマンスシステムがベンチマークで非常に低いパフォーマンスを達成するため、我々のベンチマークは非常に難しいことを示しています。
論文 参考訳(メタデータ) (2023-06-07T19:37:55Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Deep Learning Driven Natural Languages Text to SQL Query Conversion: A
Survey [2.309914459672557]
本稿では,近年研究されている24のニューラルネットワークモデルについて概観する。
TEXT2技術のモデルのトレーニングに広く使用されている11のデータセットの概要も紹介する。
論文 参考訳(メタデータ) (2022-08-08T20:54:34Z) - "What Do You Mean by That?" A Parser-Independent Interactive Approach
for Enhancing Text-to-SQL [49.85635994436742]
ループ内に人間を包含し,複数質問を用いてユーザと対話する,新規非依存型対話型アプローチ(PIIA)を提案する。
PIIAは、シミュレーションと人的評価の両方を用いて、限られたインタラクションターンでテキストとドメインのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2020-11-09T02:14:33Z) - Data Agnostic RoBERTa-based Natural Language to SQL Query Generation [0.0]
NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
論文 参考訳(メタデータ) (2020-10-11T13:18:46Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。