論文の概要: Data Agnostic RoBERTa-based Natural Language to SQL Query Generation
- arxiv url: http://arxiv.org/abs/2010.05243v3
- Date: Fri, 5 Mar 2021 05:55:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 12:48:56.101577
- Title: Data Agnostic RoBERTa-based Natural Language to SQL Query Generation
- Title(参考訳): データに依存しないRoBERTaベースの自然言語からSQLクエリ生成
- Authors: Debaditya Pal, Harsh Sharma, Kaustubh Chaudhari
- Abstract要約: NL2タスクは、自然言語による質問から有効なクエリへの変換問題を解決するために、ディープラーニングアプローチを見つけることを目的としている。
データプライバシに関するアプローチを,その中核として紹介しています。
成果は得られていないが、モデルのトレーニングからテーブルの必要性を排除した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational databases are among the most widely used architectures to store
massive amounts of data in the modern world. However, there is a barrier
between these databases and the average user. The user often lacks the
knowledge of a query language such as SQL required to interact with the
database. The NL2SQL task aims at finding deep learning approaches to solve
this problem by converting natural language questions into valid SQL queries.
Given the sensitive nature of some databases and the growing need for data
privacy, we have presented an approach with data privacy at its core. We have
passed RoBERTa embeddings and data-agnostic knowledge vectors into LSTM based
submodels to predict the final query. Although we have not achieved state of
the art results, we have eliminated the need for the table data, right from the
training of the model, and have achieved a test set execution accuracy of
76.7%. By eliminating the table data dependency while training we have created
a model capable of zero shot learning based on the natural language question
and table schema alone.
- Abstract(参考訳): リレーショナルデータベースは、現代世界で大量のデータを格納する最も広く使われているアーキテクチャの1つである。
しかし、これらのデータベースと平均的なユーザーの間には障壁がある。
ユーザはデータベースとの対話に必要なsqlのようなクエリ言語に関する知識を欠くことが多い。
NL2SQLタスクは、自然言語の質問を有効なSQLクエリに変換することによって、この問題を解決するためのディープラーニングアプローチを見つけることを目的としている。
いくつかのデータベースの繊細な性質とデータプライバシの必要性の高まりを踏まえて、データプライバシに関するアプローチをその中核に置いています。
我々は、最終クエリを予測するために、RoBERTa埋め込みとデータに依存しない知識ベクトルをLSTMベースのサブモデルに渡した。
成果は得られていないものの、モデルのトレーニングから直ちにテーブルデータの必要性を排除し、テストセットの実行精度76.7%を達成した。
学習中にテーブルデータ依存を排除することで、自然言語質問とテーブルスキーマのみに基づいてゼロショット学習が可能なモデルを作成しました。
関連論文リスト
- Table Question Answering for Low-resourced Indic Languages [71.57359949962678]
TableQAは構造化された情報のテーブル上で質問に答え、個々のセルやテーブルを出力として返すタスクである。
予算が限られている低リソース言語を対象とした,完全自動大規模テーブルQAデータ生成プロセスを提案する。
表QAデータセットやモデルを持たない2つのIndic言語であるBengaliとHindiにデータ生成手法を組み込む。
論文 参考訳(メタデータ) (2024-10-04T16:26:12Z) - E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL [1.187832944550453]
E-レポジトリは、直接スキーマリンクと候補述語拡張による課題に対処するために設計された新しいパイプラインである。
E-は、関連するデータベースアイテム(テーブル、列、値)と条件を質問に直接組み込むことで、自然言語クエリを強化し、クエリとデータベース構造の間のギャップを埋める。
本研究では,従来の研究で広く研究されてきた手法であるスキーマフィルタリングの影響について検討し,先進的な大規模言語モデルと並行して適用した場合のリターンの低下を実証する。
論文 参考訳(メタデータ) (2024-09-25T09:02:48Z) - Text2SQL is Not Enough: Unifying AI and Databases with TAG [47.45480855418987]
Table-Augmented Generation (TAG) は、データベース上の自然言語の質問に答えるパラダイムである。
我々は、TAG問題を研究するためのベンチマークを開発し、標準手法がクエリの20%以上を正しく答えることを発見した。
論文 参考訳(メタデータ) (2024-08-27T00:50:14Z) - Can LLM Already Serve as A Database Interface? A BIg Bench for
Large-Scale Database Grounded Text-to-SQLs [89.68522473384522]
テキストから効率のよいタスクをベースとした大規模データベースのための大規模なベンチマークであるBirdを紹介します。
データベースの値に重点を置いていると、汚いデータベースコンテンツに対する新たな課題が浮き彫りになる。
最も効果的なテキストから効率のよいモデルであるChatGPTでさえ、実行精度はわずか40.08%である。
論文 参考訳(メタデータ) (2023-05-04T19:02:29Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Deep Learning Driven Natural Languages Text to SQL Query Conversion: A
Survey [2.309914459672557]
本稿では,近年研究されている24のニューラルネットワークモデルについて概観する。
TEXT2技術のモデルのトレーニングに広く使用されている11のデータセットの概要も紹介する。
論文 参考訳(メタデータ) (2022-08-08T20:54:34Z) - Towards a Natural Language Query Processing System [0.0]
本稿では,自然言語クエリインタフェースとバックエンド関係データベースの設計と開発について報告する。
この研究の斬新さは、自然言語クエリを構造化クエリ言語に変換するために必要なメタデータを格納するために、グラフデータベースを中間層として定義することにある。
サンプルクエリの翻訳結果は90%の精度で得られた。
論文 参考訳(メタデータ) (2020-09-25T19:52:20Z) - Photon: A Robust Cross-Domain Text-to-SQL System [189.1405317853752]
私たちは、マッピングを即座に決定できない自然言語入力にフラグを付けることができる、堅牢でモジュール化されたクロスドメインなNLIDBPhotonを紹介します。
提案手法は,翻訳不能なユーザ入力に対して,テキストからネイティブシステムへのロバストさを効果的に向上させる。
論文 参考訳(メタデータ) (2020-07-30T07:44:48Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - Recent Advances in SQL Query Generation: A Survey [0.0]
ディープラーニング技術の発展に伴い、リレーショナルデータベースに適した自然言語インタフェースの設計において、広範な研究が進められている。
畳み込みニューラルネットワークやリカレントニューラルネットワーク,ポインタネットワーク,強化学習など,さまざまなアーキテクチャのモデルを記述する。
論文 参考訳(メタデータ) (2020-05-15T17:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。