論文の概要: GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing
- arxiv url: http://arxiv.org/abs/2009.13845v2
- Date: Sat, 29 May 2021 01:30:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 05:18:03.171423
- Title: GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing
- Title(参考訳): GraPPa: テーブルセマンティック解析のための文法拡張事前学習
- Authors: Tao Yu and Chien-Sheng Wu and Xi Victoria Lin and Bailin Wang and Yi
Chern Tan and Xinyi Yang and Dragomir Radev and Richard Socher and Caiming
Xiong
- Abstract要約: テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
- 参考スコア(独自算出の注目度): 117.98107557103877
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GraPPa, an effective pre-training approach for table semantic
parsing that learns a compositional inductive bias in the joint representations
of textual and tabular data. We construct synthetic question-SQL pairs over
high-quality tables via a synchronous context-free grammar (SCFG) induced from
existing text-to-SQL datasets. We pre-train our model on the synthetic data
using a novel text-schema linking objective that predicts the syntactic role of
a table field in the SQL for each question-SQL pair. To maintain the model's
ability to represent real-world data, we also include masked language modeling
(MLM) over several existing table-and-language datasets to regularize the
pre-training process. On four popular fully supervised and weakly supervised
table semantic parsing benchmarks, GraPPa significantly outperforms
RoBERTa-large as the feature representation layers and establishes new
state-of-the-art results on all of them.
- Abstract(参考訳): テキストと表データの結合表現における合成帰納バイアスを学習するテーブル意味解析のための効果的な事前学習手法GraPPaを提案する。
既存のテキストからSQLへのデータセットから誘導される同期文脈自由文法(SCFG)を用いて,高品質なテーブル上に合成質問-SQLペアを構築する。
質問-SQLペアごとのSQLにおけるテーブルフィールドの構文的役割を予測する新しいテキストスキーマリンク目標を用いて、合成データ上でモデルを事前訓練する。
実世界のデータを表現できるモデルの能力を維持するため、事前トレーニングプロセスの規則化のために、既存のテーブル・アンド・ランゲージデータセットにマスキング言語モデリング(MLM)を含める。
完全に教師された4つのテーブルセマンティック解析ベンチマークにおいて、GraPPaはRoBERTa-largeを特徴表現層として大きく上回り、それらすべてに対して新しい最先端の結果を確立する。
関連論文リスト
- HeLM: Highlighted Evidence augmented Language Model for Enhanced Table-to-Text Generation [7.69801337810352]
LLaMA2モデル上でパラメータ効率の良い微調整を行う。
我々のアプローチは、テーブル固有の行データを強調することにより、推論情報を入力に注入することである。
FetaQAデータセットとQTSummデータセットの両方で、我々のアプローチは最先端の結果を得た。
論文 参考訳(メタデータ) (2023-11-15T12:02:52Z) - Bridge the Gap between Language models and Tabular Understanding [99.88470271644894]
自然言語領域における事前学習の成功以降,テーブル事前学習のパラダイムが提案され,急速に採用されている。
有望な発見にもかかわらず、事前トレーニングと微調整フェーズの間には入力ギャップがある。
UTPは,テーブルテキスト,テーブル,テキストの3種類のマルチモーダル入力を動的にサポートする手法である。
論文 参考訳(メタデータ) (2023-02-16T15:16:55Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - TABBIE: Pretrained Representations of Tabular Data [22.444607481407633]
表データのみから学習する単純な事前学習目標を考案する。
競合するアプローチとは異なり、我々のモデル(TABBIE)は全てのテーブルサブストラクチャの埋め込みを提供する。
学習したセル,列,行の表現を定性的に分析した結果,複雑なテーブルの意味や数値的傾向が理解できた。
論文 参考訳(メタデータ) (2021-05-06T11:15:16Z) - Retrieving Complex Tables with Multi-Granular Graph Representation
Learning [20.72341939868327]
自然言語テーブル検索の課題は,自然言語クエリに基づいて意味的に関連するテーブルを検索することである。
既存の学習システムは、テーブルがデータフレームとして構成されているという仮定に基づいて、テーブルをプレーンテキストとして扱う。
多粒グラフ表現学習を用いた一般化可能なNLTRフレームワークであるグラフベーステーブル検索(GTR)を提案する。
論文 参考訳(メタデータ) (2021-05-04T20:19:03Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - ToTTo: A Controlled Table-To-Text Generation Dataset [61.83159452483026]
ToTToはオープンドメインの英語のテーブル・トゥ・テキストのデータセットで、12万以上のトレーニングサンプルがある。
本稿では、ウィキペディアから既存の候補文を直接修正するデータセット構築プロセスを紹介する。
通常流動的であるが、既存の方法は多くの場合、表がサポートしていないフレーズを幻覚させる。
論文 参考訳(メタデータ) (2020-04-29T17:53:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。