論文の概要: Learning to Synthesize Data for Semantic Parsing
- arxiv url: http://arxiv.org/abs/2104.05827v1
- Date: Mon, 12 Apr 2021 21:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 03:11:55.122920
- Title: Learning to Synthesize Data for Semantic Parsing
- Title(参考訳): 意味解析のためのデータ合成の学習
- Authors: Bailin Wang, Wenpeng Yin, Xi Victoria Lin and Caiming Xiong
- Abstract要約: 本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
- 参考スコア(独自算出の注目度): 57.190817162674875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing data for semantic parsing has gained increasing attention
recently. However, most methods require handcrafted (high-precision) rules in
their generative process, hindering the exploration of diverse unseen data. In
this work, we propose a generative model which features a (non-neural) PCFG
that models the composition of programs (e.g., SQL), and a BART-based
translation model that maps a program to an utterance. Due to the simplicity of
PCFG and pre-trained BART, our generative model can be efficiently learned from
existing data at hand. Moreover, explicitly modeling compositions using PCFG
leads to a better exploration of unseen programs, thus generate more diverse
data. We evaluate our method in both in-domain and out-of-domain settings of
text-to-SQL parsing on the standard benchmarks of GeoQuery and Spider,
respectively. Our empirical results show that the synthesized data generated
from our model can substantially help a semantic parser achieve better
compositional and domain generalization.
- Abstract(参考訳): 近年,意味解析のためのデータ合成が注目されている。
しかし、ほとんどの手法は、生成過程において手作りの(高精度な)規則を必要とし、多様な未知のデータ探索を妨げる。
本研究では,プログラムの構成(例えばsql)をモデル化する(非ニューラルな)pcfgと,プログラムを発話にマッピングするbartベースの翻訳モデルを特徴とする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
さらに、PCFGを用いて構成を明示的にモデル化することで、目に見えないプログラムをよりよく探索し、より多様なデータを生成する。
提案手法は,GeoQueryとSpiderの標準ベンチマークに基づいて,テキスト対SQL解析のドメイン内設定とドメイン外設定の両方で評価する。
実験の結果,モデルから生成した合成データは,セマンティックパーサがより優れた合成とドメインの一般化を実現するのに大いに役立つことがわかった。
関連論文リスト
- Can Models Help Us Create Better Models? Evaluating LLMs as Data Scientists [41.94295877935867]
データサイエンスにおける最も知識集約的な課題の1つに取り組むために設計された,大規模言語モデルのベンチマークを示す。
提案手法のFeatEngは,LLMの幅広い能力を安価かつ効率的に評価できることを実証する。
論文 参考訳(メタデータ) (2024-10-30T17:59:01Z) - Faithful Low-Resource Data-to-Text Generation through Cycle Training [14.375070014155817]
近年,構造化データからテキストを生成する手法が大幅に進歩している。
サイクルトレーニングでは、互いに逆転する2つのモデルを使用する。
サイクルトレーニングが完全に教師付きアプローチとほぼ同等のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2023-05-24T06:44:42Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Multi-Scales Data Augmentation Approach In Natural Language Inference
For Artifacts Mitigation And Pre-Trained Model Optimization [0.0]
クラウドソーシングされたStanford Natural Language Inference corpus内でデータセットのアーティファクトを分析し、配置するための様々な技術を提供する。
データセットアーティファクトを緩和するために、2つの異なるフレームワークで独自のマルチスケールデータ拡張技術を採用している。
本手法は, 摂動試験に対するモデルの抵抗性を向上し, トレーニング済みベースラインの連続的な性能向上を可能にする。
論文 参考訳(メタデータ) (2022-12-16T23:37:44Z) - Comparing Computational Architectures for Automated Journalism [0.0]
本研究は、ブラジルポルトガル語のテキストを構造化データから生成する最もよく用いられる手法を比較した。
その結果、生成プロセスにおける明示的な中間ステップは、ニューラルエンド・ツー・エンドアーキテクチャによって生成されるものよりも優れたテキストを生成することが示唆された。
論文 参考訳(メタデータ) (2022-10-08T21:20:52Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations [0.8203855808943658]
本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。
ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
論文 参考訳(メタデータ) (2020-11-03T22:55:40Z) - GraPPa: Grammar-Augmented Pre-Training for Table Semantic Parsing [117.98107557103877]
テーブルセマンティック解析のための効果的な事前学習手法GraPPaを提案する。
我々は、同期文脈自由文法を用いて、高自由度テーブル上に合成質問ペアを構築する。
実世界のデータを表現できるモデルの能力を維持するため、マスキング言語モデリングも含んでいる。
論文 参考訳(メタデータ) (2020-09-29T08:17:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。