論文の概要: Self-supervised Text-to-SQL Learning with Header Alignment Training
- arxiv url: http://arxiv.org/abs/2103.06402v1
- Date: Thu, 11 Mar 2021 01:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2021-03-13 05:55:10.568050
- Title: Self-supervised Text-to-SQL Learning with Header Alignment Training
- Title(参考訳): ヘッダアライメントトレーニングによる自己教師付きテキスト-SQL学習
- Authors: Donggyu Kim, Seanie Lee
- Abstract要約: 自己教師付き学習は、さまざまな分野におけるディープラーニングの最近の成功のデファクトコンポーネントである。
自己監督型学習目標とタスク特化型学習目標の相違に取り組むための,新たな自己監督型学習フレームワークを提案する。
本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。
- 参考スコア(独自算出の注目度): 4.518012967046983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Since we can leverage a large amount of unlabeled data without any human
supervision to train a model and transfer the knowledge to target tasks,
self-supervised learning is a de-facto component for the recent success of deep
learning in various fields. However, in many cases, there is a discrepancy
between a self-supervised learning objective and a task-specific objective. In
order to tackle such discrepancy in Text-to-SQL task, we propose a novel
self-supervised learning framework. We utilize the task-specific properties of
Text-to-SQL task and the underlying structures of table contents to train the
models to learn useful knowledge of the \textit{header-column} alignment task
from unlabeled table data. We are able to transfer the knowledge to the
supervised Text-to-SQL training with annotated samples, so that the model can
leverage the knowledge to better perform the \textit{header-span} alignment
task to predict SQL statements. Experimental results show that our
self-supervised learning framework significantly improves the performance of
the existing strong BERT based models without using large external corpora. In
particular, our method is effective for training the model with scarce labeled
data. The source code of this work is available in GitHub.
- Abstract(参考訳): 人間の指導なしに大量のラベルのないデータを活用してモデルを訓練し、目標とするタスクに知識を伝達できるため、自己教師型学習は、近年の様々な分野における深層学習の成功のためのデファクトコンポーネントである。
しかし、多くの場合、自己監督学習の目的とタスク固有の目的との間に矛盾があります。
このようなText-to-SQLタスクの相違に対処するため、新しい自己監督学習フレームワークを提案する。
テキストからsqlへのタスクのタスク固有の特性とテーブルコンテンツの構造を利用して、ラベルなしのテーブルデータから \textit{header-column} アライメントタスクの有用な知識を学ぶ。
私たちは、知識を注釈付きサンプルを使って教師付きテキストからsqlへのトレーニングに転送することができ、モデルがその知識をうまく活用して、sqlステートメントを予測するために \textit{header-span}アライメントタスクを実行できます。
実験の結果,我々の自己教師型学習フレームワークは,大規模な外部コーパスを使わずに既存の強力なBERTモデルの性能を著しく向上させることがわかった。
特に,本手法は,希少なラベル付きデータを用いたモデルトレーニングに有効である。
この作業のソースコードはgithubで公開されている。
関連論文リスト
- RetrySQL: text-to-SQL training with retry data for self-correcting query generation [1.6707278580444538]
テキスト・ツー・ジェネレーションモデルをトレーニングするための新しいアプローチであるRetryを紹介します。
再試行のステップは、総合的および挑戦的な実行精度の指標において最大4ポイントの改善をもたらすことを実証する。
論文 参考訳(メタデータ) (2025-07-03T11:00:49Z) - Sparks of Tabular Reasoning via Text2SQL Reinforcement Learning [0.12289361708127876]
この研究は、Text-to-the-taskを、大規模言語モデル(LLM)にデータの推論と操作を教えるための経路として再構成した。
本稿では,テーブルフィールドをトラバースし,フィルタし,集約する方法をモデルに教える2段階フレームワークを提案する。
提案手法は,BIRD や CRT-QA などの推論集約型データセットに対して,理論的に有意な向上を実現している。
論文 参考訳(メタデータ) (2025-04-23T19:02:04Z) - Tabular Transfer Learning via Prompting LLMs [52.96022335067357]
大規模言語モデル(LLM)を用いたラベル付き(あるいは異種)ソースデータを利用した新しいフレームワークPrompt to Transfer (P2T)を提案する。
P2Tは、ターゲットタスク機能と強く相関しているソースデータセットの列の特徴を特定し、ターゲットタスクに関連する例を作成し、プロンプトの擬似宣言を生成する。
論文 参考訳(メタデータ) (2024-08-09T11:30:52Z) - Self-Regulated Data-Free Knowledge Amalgamation for Text Classification [9.169836450935724]
そこで我々は,複数の教師モデルから学習できる軽量な学生ネットワークを構築した。
そこで本研究では,各教師に適したテキストデータを生成するモデリングフレームワークSTRATANETを提案する。
本手法は,ラベルやドメインの異なる3つのベンチマークテキスト分類データセットを用いて評価する。
論文 参考訳(メタデータ) (2024-06-16T21:13:30Z) - SQL-PaLM: Improved Large Language Model Adaptation for Text-to-SQL (extended) [53.95151604061761]
本稿では,大規模言語モデル(LLM)を用いたテキスト・ツー・フィルタリングのフレームワークを提案する。
数発のプロンプトで、実行ベースのエラー解析による一貫性復号化の有効性について検討する。
命令の微調整により、チューニングされたLLMの性能に影響を及ぼす重要なパラダイムの理解を深める。
論文 参考訳(メタデータ) (2023-05-26T21:39:05Z) - Augmenting Multi-Turn Text-to-SQL Datasets with Self-Play [46.07002748587857]
我々は、コンテキスト情報を活用して新しいインタラクションを合成するセルフプレイによるトレーニングデータセットの強化について検討する。
本研究では,SParCとCoという2つの広く使われているテキスト・ドメイン・データセットの強いベースラインの精度を向上させることを発見した。
論文 参考訳(メタデータ) (2022-10-21T16:40:07Z) - Task Compass: Scaling Multi-task Pre-training with Task Prefix [122.49242976184617]
既存の研究では、大規模教師付きタスクによるマルチタスク学習がタスク間の負の効果に悩まされていることが示されている。
タスク間の関係を探索するために,タスクプレフィックスガイド付きマルチタスク事前学習フレームワークを提案する。
我々のモデルは、幅広いタスクの強力な基盤バックボーンとして機能するだけでなく、タスク関係を分析するための探索ツールとしても実現可能である。
論文 参考訳(メタデータ) (2022-10-12T15:02:04Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - Leveraging Table Content for Zero-shot Text-to-SQL with Meta-Learning [25.69875174742935]
単一テーブルのテキスト・トゥ・ワンは、自然言語の質問を単一のテーブルに従ってクエリに変換することを目的としている。
我々は、追加のマニュアルアノテーションに依存しないゼロショットテキスト・ツー・ワンタスクに対して、新しいアプローチを提案する。
パブリックなオープンドメインのテキスト・ツー・ワン・データセットとドメイン固有のデータセットEについて広範な実験を行った。
論文 参考訳(メタデータ) (2021-09-12T01:01:28Z) - Structure-Grounded Pretraining for Text-to-SQL [75.19554243393814]
本稿では,テキストからLARGEへの構造化事前学習フレームワーク(G)について述べる。
カラムグラウンド、バリューグラウンド、カラム値マッピングといった新しい予測タスクのセットを特定し、それらをテキストテーブルエンコーダの事前訓練に活用する。
論文 参考訳(メタデータ) (2020-10-24T04:35:35Z) - Learning Better Representation for Tables by Self-Supervised Tasks [23.69766883380125]
本稿では,表表現の学習を支援するために,数値順序付けと有意順序付けという2つの自己教師型タスクを提案する。
本手法はNBAゲーム統計と関連ニュースからなるROTOWIREを用いて検証する。
論文 参考訳(メタデータ) (2020-10-15T09:03:38Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。