論文の概要: Learning to Synthesize Data for Semantic Parsing
- arxiv url: http://arxiv.org/abs/2104.05827v1
- Date: Mon, 12 Apr 2021 21:24:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-15 03:11:55.122920
- Title: Learning to Synthesize Data for Semantic Parsing
- Title(参考訳): 意味解析のためのデータ合成の学習
- Authors: Bailin Wang, Wenpeng Yin, Xi Victoria Lin and Caiming Xiong
- Abstract要約: 本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
- 参考スコア(独自算出の注目度): 57.190817162674875
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthesizing data for semantic parsing has gained increasing attention
recently. However, most methods require handcrafted (high-precision) rules in
their generative process, hindering the exploration of diverse unseen data. In
this work, we propose a generative model which features a (non-neural) PCFG
that models the composition of programs (e.g., SQL), and a BART-based
translation model that maps a program to an utterance. Due to the simplicity of
PCFG and pre-trained BART, our generative model can be efficiently learned from
existing data at hand. Moreover, explicitly modeling compositions using PCFG
leads to a better exploration of unseen programs, thus generate more diverse
data. We evaluate our method in both in-domain and out-of-domain settings of
text-to-SQL parsing on the standard benchmarks of GeoQuery and Spider,
respectively. Our empirical results show that the synthesized data generated
from our model can substantially help a semantic parser achieve better
compositional and domain generalization.
- Abstract(参考訳): 近年,意味解析のためのデータ合成が注目されている。
しかし、ほとんどの手法は、生成過程において手作りの(高精度な)規則を必要とし、多様な未知のデータ探索を妨げる。
本研究では,プログラムの構成(例えばsql)をモデル化する(非ニューラルな)pcfgと,プログラムを発話にマッピングするbartベースの翻訳モデルを特徴とする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
さらに、PCFGを用いて構成を明示的にモデル化することで、目に見えないプログラムをよりよく探索し、より多様なデータを生成する。
提案手法は,GeoQueryとSpiderの標準ベンチマークに基づいて,テキスト対SQL解析のドメイン内設定とドメイン外設定の両方で評価する。
実験の結果,モデルから生成した合成データは,セマンティックパーサがより優れた合成とドメインの一般化を実現するのに大いに役立つことがわかった。
- 全文 参考訳へのリンク
関連論文リスト
- Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z) - ALP: Data Augmentation using Lexicalized PCFGs for Few-Shot Text
Classification [11.742065170002162]
Lexicalized Probabilistic context-free grammars (ALP) を用いたデータ拡張について述べる。
数ショットのテキスト分類タスクの実験は、ALPが多くの最先端の分類方法を強化することを示した。
我々は、従来のトレーニングと検証セットの分割は、我々の新しい拡張ベースの分割戦略と比較して、準最適であると実証的に主張する。
論文 参考訳(メタデータ) (2021-12-16T09:56:35Z) - Improving Compositional Generalization with Self-Training for
Data-to-Text Generation [36.973617793800315]
データ・テキスト・タスクにおける現在の生成モデルの合成一般化について検討する。
構成的気象データセットの構造変化をシミュレートすることにより、T5モデルは目に見えない構造に一般化できないことを示す。
擬似応答選択のための細調整BLEURTを用いた自己学習に基づく手法を提案する。
論文 参考訳(メタデータ) (2021-10-16T04:26:56Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z) - Improved Semantic Role Labeling using Parameterized Neighborhood Memory
Adaptation [22.064890647610348]
本稿では,アクティベーションのメモリにおける近接するトークンのパラメータ化表現を用いたパラメータ化近傍メモリ適応(PNMA)手法を提案する。
単語埋め込みの種類に関係なく,PNMAはベースモデルのSRL性能を一貫して改善することを示す。
論文 参考訳(メタデータ) (2020-11-29T22:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。