論文の概要: RASAT: Integrating Relational Structures into Pretrained Seq2Seq Model
for Text-to-SQL
- arxiv url: http://arxiv.org/abs/2205.06983v1
- Date: Sat, 14 May 2022 06:27:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-17 13:31:08.091614
- Title: RASAT: Integrating Relational Structures into Pretrained Seq2Seq Model
for Text-to-SQL
- Title(参考訳): RASAT:テキストからSQLへの事前トレーニングされたSeq2Seqモデルへの関係構造の統合
- Authors: Jiexing Qi, Jingyao Tang, Ziwei He, Xiangpeng Wan, Chenghu Zhou,
Xinbing Wang, Quanshi Zhang, Zhouhan Lin
- Abstract要約: 本稿では,リレーショナルアウェア・セルフアテンションを付加したTransformer seq2seqアーキテクチャを提案する。
我々のモデルは、文献にはほとんど全ての種類の既存の関係を組み込むことができる。
- 参考スコア(独自算出の注目度): 37.173390754207766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Relational structures such as schema linking and schema encoding have been
validated as a key component to qualitatively translating natural language into
SQL queries. However, introducing these structural relations comes with prices:
they often result in a specialized model structure, which largely prohibits the
use of large pretrained models in text-to-SQL. To address this problem, we
propose RASAT: a Transformer seq2seq architecture augmented with relation-aware
self-attention that could leverage a variety of relational structures while at
the meantime being able to effectively inherit the pretrained parameters from
the T5 model. Our model is able to incorporate almost all types of existing
relations in the literature, and in addition, we propose to introduce
co-reference relations for the multi-turn scenario. Experimental results on
three widely used text-to-SQL datasets, covering both single-turn and
multi-turn scenarios, have shown that RASAT could achieve competitive results
in all three benchmarks, achieving state-of-the-art performance in execution
accuracy (80.5\% EX on Spider, 53.1\% IEX on SParC, and 37.5\% IEX on CoSQL).
- Abstract(参考訳): スキーマリンクやスキーマエンコーディングといった関係構造は、自然言語をSQLクエリに質的に翻訳するための重要なコンポーネントとして検証されている。
しかし、これらの構造的関係を導入するには価格が伴う。それらはしばしば、テキストからSQLへの大きな事前学習モデルの使用をほとんど禁止する特別なモデル構造をもたらす。
この問題を解決するために,我々は,t5モデルから事前学習パラメータを効果的に受け継げる一方で,様々な関係構造を活用できる関係認識型自己照査により拡張されたトランスフォーマ seq2seq アーキテクチャを提案する。
本モデルでは,文献にはほとんどすべての既存関係を組み込むことができ,また,マルチターンシナリオに共参照関係を導入することを提案する。
シングルターンとマルチターンの両方のシナリオをカバーする3つの広く使用されているテキスト-SQLデータセットの実験結果から、RASATは3つのベンチマークすべてで競合する結果が得られ、実行精度で最先端のパフォーマンスを達成する(Spiderでは80.5\%、SParCでは53.1\%、CoSQLでは37.5\%)。
関連論文リスト
- Enhancing LLM Fine-tuning for Text-to-SQLs by SQL Quality Measurement [1.392448435105643]
Text-to-sにより、専門家でないユーザは、自然言語クエリを使用してデータベースから要求された情報を取得することができる。
GPT4やT5のような現在の最先端(SOTA)モデルは、BIRDのような大規模ベンチマークで素晴らしいパフォーマンスを示している。
本稿では,テキスト・ツー・ス・パフォーマンスを向上させるためにSQL Qualityのみを必要とする新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-02T17:21:51Z) - UNITE: A Unified Benchmark for Text-to-SQL Evaluation [72.72040379293718]
テキスト・ツー・ドメイン・システムのためのUNIfiedベンチマークを導入する。
公開されているテキストからドメインへのデータセットと29Kデータベースで構成されている。
広く使われているSpiderベンチマークと比較すると、SQLパターンの3倍の増加が紹介されている。
論文 参考訳(メタデータ) (2023-05-25T17:19:52Z) - Conversational Text-to-SQL: An Odyssey into State-of-the-Art and
Challenges Ahead [6.966624873109535]
State-of-the-art (SOTA) システムは、T5ファミリーのような大規模で訓練済み、微調整された言語モデルを使用する。
トレーニング中に個別のプロンプトを持つコヒーレントなタスクに対するマルチタスク(MT)により、特殊なテキストから3つのモデルよりも改善する。
我々は、領域と構成の一般化に起因する誤りを分解する研究を行う。
論文 参考訳(メタデータ) (2023-02-21T23:15:33Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - Proton: Probing Schema Linking Information from Pre-trained Language
Models for Text-to-SQL Parsing [66.55478402233399]
本稿では,ポアンカー距離測定に基づく探索手法を用いて,関係構造を抽出する枠組みを提案する。
スキーマリンクの一般的なルールベース手法と比較して,探索関係は意味的対応をしっかりと捉えることができることがわかった。
我々のフレームワークは3つのベンチマークで最先端のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-06-28T14:05:25Z) - UniSAr: A Unified Structure-Aware Autoregressive Language Model for
Text-to-SQL [48.21638676148253]
We present UniSAr (Unified Structure-Aware Autoregressive Language Model), which is benefit of using a off-the-shelf language model。
具体的には、UniSArは既存の自己回帰モデルを拡張して、3つの非侵襲的拡張を組み込んで構造認識する。
論文 参考訳(メタデータ) (2022-03-15T11:02:55Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。