論文の概要: Self-supervised Text-to-SQL Learning with Header Alignment Training
- arxiv url: http://arxiv.org/abs/2103.06402v1
- Date: Thu, 11 Mar 2021 01:09:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 05:55:10.568050
- Title: Self-supervised Text-to-SQL Learning with Header Alignment Training
- Title(参考訳): ヘッダアライメントトレーニングによる自己教師付きテキスト-SQL学習
- Authors: Donggyu Kim, Seanie Lee
- Abstract要約: 自己教師付き学習は、さまざまな分野におけるディープラーニングの最近の成功のデファクトコンポーネントである。
自己監督型学習目標とタスク特化型学習目標の相違に取り組むための,新たな自己監督型学習フレームワークを提案する。
本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。
- 参考スコア(独自算出の注目度): 4.518012967046983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since we can leverage a large amount of unlabeled data without any human
supervision to train a model and transfer the knowledge to target tasks,
self-supervised learning is a de-facto component for the recent success of deep
learning in various fields. However, in many cases, there is a discrepancy
between a self-supervised learning objective and a task-specific objective. In
order to tackle such discrepancy in Text-to-SQL task, we propose a novel
self-supervised learning framework. We utilize the task-specific properties of
Text-to-SQL task and the underlying structures of table contents to train the
models to learn useful knowledge of the \textit{header-column} alignment task
from unlabeled table data. We are able to transfer the knowledge to the
supervised Text-to-SQL training with annotated samples, so that the model can
leverage the knowledge to better perform the \textit{header-span} alignment
task to predict SQL statements. Experimental results show that our
self-supervised learning framework significantly improves the performance of
the existing strong BERT based models without using large external corpora. In
particular, our method is effective for training the model with scarce labeled
data. The source code of this work is available in GitHub.
- Abstract(参考訳): 人間の指導なしに大量のラベルのないデータを活用してモデルを訓練し、目標とするタスクに知識を伝達できるため、自己教師型学習は、近年の様々な分野における深層学習の成功のためのデファクトコンポーネントである。
しかし、多くの場合、自己監督学習の目的とタスク固有の目的との間に矛盾があります。
このようなText-to-SQLタスクの相違に対処するため、新しい自己監督学習フレームワークを提案する。
テキストからsqlへのタスクのタスク固有の特性とテーブルコンテンツの構造を利用して、ラベルなしのテーブルデータから \textit{header-column} アライメントタスクの有用な知識を学ぶ。
私たちは、知識を注釈付きサンプルを使って教師付きテキストからsqlへのトレーニングに転送することができ、モデルがその知識をうまく活用して、sqlステートメントを予測するために \textit{header-span}アライメントタスクを実行できます。
実験の結果,我々の自己教師型学習フレームワークは,大規模な外部コーパスを使わずに既存の強力なBERTモデルの性能を著しく向上させることがわかった。
特に,本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。
この作業のソースコードはgithubで公開されている。
関連論文リスト
- Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Leveraging Table Content for Zero-shot Text-to-SQL with Meta-Learning [25.69875174742935]
単一テーブルのテキスト・トゥ・ワンは、自然言語の質問を単一のテーブルに従ってクエリに変換することを目的としている。
我々は、追加のマニュアルアノテーションに依存しないゼロショットテキスト・ツー・ワンタスクに対して、新しいアプローチを提案する。
パブリックなオープンドメインのテキスト・ツー・ワン・データセットとドメイン固有のデータセットEについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-12T01:01:28Z) - Structure-Grounded Pretraining for Text-to-SQL [75.19554243393814]
本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。
カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
論文 参考訳(メタデータ) (2020-10-24T04:35:35Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。