論文の概要: Metasql: A Generate-then-Rank Framework for Natural Language to SQL
Translation
- arxiv url: http://arxiv.org/abs/2402.17144v1
- Date: Tue, 27 Feb 2024 02:16:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 18:01:08.043270
- Title: Metasql: A Generate-then-Rank Framework for Natural Language to SQL
Translation
- Title(参考訳): Metasql: 自然言語からSQLへの変換のためのジェネレーション-then-Rankフレームワーク
- Authors: Yuankai Fan, Zhenying He, Tonghui Ren, Can Huang, Yinan Jing, Kai
Zhang, X.Sean Wang
- Abstract要約: 本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫して向上する統合生成列フレームワークを提案する。
Metasqlは、より良いクエリ候補の生成を制御するためにクエリメタデータを導入し、グローバルに最適化されたクエリを検索するために学習からランクアルゴリズムを使用する。
その結果,Metasqlを用いて翻訳モデルの性能を効果的に改善できることが示唆された。
- 参考スコア(独自算出の注目度): 10.812409371488913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Natural Language Interface to Databases (NLIDB) empowers non-technical
users with database access through intuitive natural language (NL)
interactions. Advanced approaches, utilizing neural sequence-to-sequence models
or large-scale language models, typically employ auto-regressive decoding to
generate unique SQL queries sequentially. While these translation models have
greatly improved the overall translation accuracy, surpassing 70% on NLIDB
benchmarks, the use of auto-regressive decoding to generate single SQL queries
may result in sub-optimal outputs, potentially leading to erroneous
translations. In this paper, we propose Metasql, a unified generate-then-rank
framework that can be flexibly incorporated with existing NLIDBs to
consistently improve their translation accuracy. Metasql introduces query
metadata to control the generation of better SQL query candidates and uses
learning-to-rank algorithms to retrieve globally optimized queries.
Specifically, Metasql first breaks down the meaning of the given NL query into
a set of possible query metadata, representing the basic concepts of the
semantics. These metadata are then used as language constraints to steer the
underlying translation model toward generating a set of candidate SQL queries.
Finally, Metasql ranks the candidates to identify the best matching one for the
given NL query. Extensive experiments are performed to study Metasql on two
public NLIDB benchmarks. The results show that the performance of the
translation models can be effectively improved using Metasql.
- Abstract(参考訳): データベースへの自然言語インターフェース(nlidb)は、直感的な自然言語(nl)インタラクションを通じて、非技術ユーザによるデータベースアクセスを促進する。
ニューラルシークエンス・ツー・シーケンスモデルや大規模言語モデルを利用する高度なアプローチは、通常、ユニークなSQLクエリをシーケンシャルに生成するために自動回帰デコードを使用する。
これらの翻訳モデルは全体的な翻訳精度を大幅に改善し、NLIDBベンチマークでは70%を超えているが、単一のSQLクエリを生成する自動回帰デコードを使用することで、サブ最適出力が得られ、誤翻訳につながる可能性がある。
本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫した向上を図ることができる,統一型ジェネレータ-then-rankフレームワークMetasqlを提案する。
metasqlはクエリメタデータを導入し、より良いsqlクエリ候補の生成を制御し、ラーニング・トゥ・ランクアルゴリズムを使用してグローバルに最適化されたクエリを検索する。
具体的には、Metasqlはまず与えられたNLクエリの意味をクエリメタデータのセットに分解し、セマンティクスの基本概念を表現します。
これらのメタデータは言語制約として使用され、基盤となる翻訳モデルから候補となるSQLクエリを生成する。
最後に、Metasqlは候補をランク付けし、与えられたNLクエリに最適な候補を特定する。
Metasqlを2つの公開NLIDBベンチマークで研究するために、大規模な実験が行われた。
その結果,metasqlを用いて翻訳モデルの性能を効果的に向上できることがわかった。
関連論文リスト
- Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。
我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。
提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。
微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:04:27Z) - Interleaving Pre-Trained Language Models and Large Language Models for
Zero-Shot NL2SQL Generation [23.519727682763644]
ZeroNL2は、新しい環境に適応する自然言語のtosqlの実現に不可欠である。
既存のアプローチは、データに基づいた微調整事前学習言語モデル(PLM)か、ChatGPTのような固定された大言語モデル(LLM)をガイドするプロンプトを使用する。
ゼロショットNL2をサポートするために, PLM と LLM の相補的な利点を組み合わせた ZeroNL2 フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-15T06:50:51Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - xDBTagger: Explainable Natural Language Interface to Databases Using
Keyword Mappings and Schema Graph [0.17188280334580192]
自然言語クエリをインターフェース内の構造化クエリ言語(NLQ)にリレーショナルデータベースに変換することは、難しい作業である。
我々は xDBTagger を提案する。xDBTagger は説明可能なハイブリッド翻訳パイプラインで,ユーザがテキストと視覚の両方で行う決定について説明する。
xDBTaggerは精度の点で有効であり、クエリを最先端のパイプラインベースシステムと比較して最大10000倍の効率で変換する。
論文 参考訳(メタデータ) (2022-10-07T18:17:09Z) - Improving Text-to-SQL Semantic Parsing with Fine-grained Query
Understanding [84.04706075621013]
トークンレベルのきめ細かいクエリ理解に基づく汎用的モジュール型ニューラルネットワーク解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルエンティティリンカ(NSP)の3つのモジュールから構成されている。
論文 参考訳(メタデータ) (2022-09-28T21:00:30Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Multilingual Autoregressive Entity Linking [49.35994386221958]
mGENREはMultilingual Entity Linking問題のためのシーケンス対シーケンスシステムである。
与えられた言語で言及すると、mGENREはターゲットエンティティの名前を左から右へ、トークンごとに予測します。
提案手法の有効性を3つのMELベンチマーク実験を含む広範囲な評価により示す。
論文 参考訳(メタデータ) (2021-03-23T13:25:55Z) - Bridging Textual and Tabular Data for Cross-Domain Text-to-SQL Semantic
Parsing [110.97778888305506]
BRIDGEは、フィールドのサブセットが質問に言及されたセル値で拡張されるタグ付きシーケンスの質問とDBスキーマを表します。
BRIDGEは、人気のクロスDBテキスト-リレーショナルベンチマークで最先端のパフォーマンスを達成しました。
本分析は,BRIDGEが望まれる相互依存を効果的に捕捉し,さらにテキストDB関連タスクに一般化する可能性を示唆している。
論文 参考訳(メタデータ) (2020-12-23T12:33:52Z) - ColloQL: Robust Cross-Domain Text-to-SQL Over Search Queries [10.273545005890496]
データ拡張技術とサンプリングベースコンテンツ対応BERTモデル(ColloQL)を紹介する。
ColloQLは、Wikilogicalデータセット上で84.9%(実行)と90.7%(実行)の精度を達成する。
論文 参考訳(メタデータ) (2020-10-19T23:53:17Z) - Bertrand-DR: Improving Text-to-SQL using a Discriminative Re-ranker [1.049360126069332]
生成テキスト-リミモデルの性能向上を図るために,新しい離散型リランカを提案する。
テキスト・ト・リミモデルとリランカモデルの相対強度を最適性能として解析する。
本稿では,2つの最先端テキスト-リミモデルに適用することで,リランカの有効性を実証する。
論文 参考訳(メタデータ) (2020-02-03T04:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。