論文の概要: T5QL: Taming language models for SQL generation
- arxiv url: http://arxiv.org/abs/2209.10254v1
- Date: Wed, 21 Sep 2022 10:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 17:30:31.420679
- Title: T5QL: Taming language models for SQL generation
- Title(参考訳): t5ql: sql生成のための言語モデル変更
- Authors: Samuel Arcadinho, David Apar\'icio, Hugo Veiga, Ant\'onio Alegria
- Abstract要約: セマンティック解析のための現在のSOTA法は、ベンチマークデータセット上で高い予測精度を達成するためにLLMに依存する。
我々は,ベンチマークデータセットにおいて,より小さなLM(T5-Base)を使用する場合,SOTA法と比較して13ppの高速化を行う新しい手法であるT5QLを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Automatic SQL generation has been an active research area, aiming at
streamlining the access to databases by writing natural language with the given
intent instead of writing SQL. Current SOTA methods for semantic parsing depend
on LLMs to achieve high predictive accuracy on benchmark datasets. This reduces
their applicability, since LLMs requires expensive GPUs. Furthermore, SOTA
methods are ungrounded and thus not guaranteed to always generate valid SQL.
Here we propose T5QL, a new SQL generation method that improves the performance
in benchmark datasets when using smaller LMs, namely T5-Base, by 13pp when
compared against SOTA methods. Additionally, T5QL is guaranteed to always
output valid SQL using a context-free grammar to constrain SQL generation.
Finally, we show that dividing semantic parsing in two tasks, candidate SQLs
generation and candidate re-ranking, is a promising research avenue that can
reduce the need for large LMs.
- Abstract(参考訳): SQLの自動生成は、SQLを書く代わりに、自然言語を所定の意図で書くことによって、データベースへのアクセスを合理化することを目的として、活発な研究領域である。
セマンティック解析のための現在のSOTA法は、ベンチマークデータセット上で高い予測精度を達成するためにLLMに依存する。
LLMは高価なGPUを必要とするため、適用性が低下する。
さらに、SOTAメソッドはアングラウンド化されており、常に有効なSQLを生成することは保証されていない。
本稿では,より小さなLMであるT5-Baseを使用する場合,ベンチマークデータセットのパフォーマンスを改善する新しいSQL生成方法であるT5QLについて,SOTA法と比較した場合,13ppずつ提案する。
さらに、T5QLは、SQL生成を制限するためにコンテキストフリー文法を使用して、常に有効なSQLを出力することが保証されている。
最後に,2つのタスク,候補SQLの生成と候補再ランクのセマンティック解析を分割することが,大規模なLMの必要性を低減できる有望な研究手法であることを示す。
関連論文リスト
- RSL-SQL: Robust Schema Linking in Text-to-SQL Generation [51.00761167842468]
本稿では、双方向スキーマリンク、コンテキスト情報拡張、バイナリ選択戦略、マルチターン自己補正を組み合わせたRSLと呼ばれる新しいフレームワークを提案する。
ベンチマークの結果,オープンソースのソリューション間でのSOTA実行精度は67.2%,BIRDは87.9%,GPT-4オクルージョンは87.9%であった。
提案手法は,DeepSeekを同一のプロンプトで適用した場合,GPT-4ベースのテキスト・ツー・シークシステムよりも優れている。
論文 参考訳(メタデータ) (2024-10-31T16:22:26Z) - Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - Metasql: A Generate-then-Rank Framework for Natural Language to SQL
Translation [10.812409371488913]
本稿では,既存のNLIDBに柔軟に組み込むことができ,翻訳精度を一貫して向上する統合生成列フレームワークを提案する。
Metasqlは、より良いクエリ候補の生成を制御するためにクエリメタデータを導入し、グローバルに最適化されたクエリを検索するために学習からランクアルゴリズムを使用する。
その結果,Metasqlを用いて翻訳モデルの性能を効果的に改善できることが示唆された。
論文 参考訳(メタデータ) (2024-02-27T02:16:07Z) - Fine-Tuning Language Models for Context-Specific SQL Query Generation [0.0]
本稿では,自然言語を tosql クエリに変換するタスクに対して,オープンソースの大規模言語モデル (LLM) を微調整する新しい手法を提案する。
我々は、Snowflake SQLとGoogleの方言に合わせて、合成データセットに基づいて訓練されたsqlクエリ生成に特化したモデルを紹介する。
提案手法では,GPT-4を用いてコンテキスト固有のデータセットを生成し,リソース制約を最適化するためにLoRa技術を用いて3つのオープンソースLCM(Starcoder Plus,Code-Llama,Mistral)を微調整する。
微調整モデルでは、ベースラインGPと比較してゼロショット設定では優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-04T18:04:27Z) - Benchmarking and Improving Text-to-SQL Generation under Ambiguity [25.283118418288293]
我々はAmbiQTと呼ばれる新しいベンチマークを開発し、各テキストは語彙的および/または構造的あいまいさのために2つのもっともらしいSQLとして解釈できる。
提案するLogicalBeamは,計画ベースのテンプレート生成と制約付きインフィルを併用して,sql論理空間をナビゲートする新しい復号アルゴリズムである。
論文 参考訳(メタデータ) (2023-10-20T17:00:53Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - A Survey on Text-to-SQL Parsing: Concepts, Methods, and Future
Directions [102.8606542189429]
テキストからコーパスへのパースの目的は、自然言語(NL)質問をデータベースが提供するエビデンスに基づいて、対応する構造化クエリ言語()に変換することである。
ディープニューラルネットワークは、入力NL質問から出力クエリへのマッピング関数を自動的に学習するニューラルジェネレーションモデルによって、このタスクを大幅に進歩させた。
論文 参考訳(メタデータ) (2022-08-29T14:24:13Z) - Weakly Supervised Text-to-SQL Parsing through Question Decomposition [53.22128541030441]
我々は最近提案されたQDMR(QDMR)という意味表現を活用している。
質問やQDMR構造(非専門家によって注釈付けされたり、自動予測されたりする)、回答が与えられたら、我々は自動的にsqlクエリを合成できる。
本結果は,NL-ベンチマークデータを用いて訓練したモデルと,弱い教師付きモデルが競合することを示す。
論文 参考訳(メタデータ) (2021-12-12T20:02:42Z) - SeqGenSQL -- A Robust Sequence Generation Model for Structured Query
Language [5.0873556718569155]
データベースに格納された情報にインターフェースする汎用自然言語は、自然言語の質問をデータベースクエリに柔軟に翻訳する必要がある。
最適なテキスト・ジェネレータシステムは、まず質問を中間論理形式(LF)に変換することでこの問題にアプローチする(Lyu et al. (2020))
本稿では,T5(Raffel et al.)を用いた質問 tosql 文の直接変換にアプローチする。
先行技術(Min et al.)に対して性能改善は6.6%絶対であり、状態性能にアプローチする。
論文 参考訳(メタデータ) (2020-11-07T19:22:59Z) - Structure-Grounded Pretraining for Text-to-SQL [75.19554243393814]
本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。
カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
論文 参考訳(メタデータ) (2020-10-24T04:35:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。