論文の概要: Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations
- arxiv url: http://arxiv.org/abs/2011.02050v1
- Date: Tue, 3 Nov 2020 22:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:01:54.720938
- Title: Generating Synthetic Data for Task-Oriented Semantic Parsing with
Hierarchical Representations
- Title(参考訳): 階層表現を用いたタスク指向意味解析のための合成データの生成
- Authors: Ke Tran, Ming Tan
- Abstract要約: 本研究では,ニューラルセマンティック解析のための合成データ生成の可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて合成発話条件を生成する。
ナビゲーション領域のためのFacebook TOPデータセットを評価する際に、我々のアプローチの可能性を示す。
- 参考スコア(独自算出の注目度): 0.8203855808943658
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern conversational AI systems support natural language understanding for a
wide variety of capabilities. While a majority of these tasks can be
accomplished using a simple and flat representation of intents and slots, more
sophisticated capabilities require complex hierarchical representations
supported by semantic parsing. State-of-the-art semantic parsers are trained
using supervised learning with data labeled according to a hierarchical schema
which might be costly to obtain or not readily available for a new domain. In
this work, we explore the possibility of generating synthetic data for neural
semantic parsing using a pretrained denoising sequence-to-sequence model (i.e.,
BART). Specifically, we first extract masked templates from the existing
labeled utterances, and then fine-tune BART to generate synthetic utterances
conditioning on the extracted templates. Finally, we use an auxiliary parser
(AP) to filter the generated utterances. The AP guarantees the quality of the
generated data. We show the potential of our approach when evaluating on the
Facebook TOP dataset for navigation domain.
- Abstract(参考訳): 現代の会話型AIシステムは、さまざまな能力に対して自然言語理解をサポートする。
これらのタスクの大部分は、インテントとスロットの単純でフラットな表現を使って実現可能だが、より高度な機能には、セマンティック解析によってサポートされる複雑な階層表現が必要になる。
最先端のセマンティックパーザは、階層スキーマに従ってラベル付けされたデータによる教師付き学習を使用して訓練される。
本研究では,事前学習されたdenoising sequence-to-sequenceモデル(BART)を用いて,ニューラルセマンティック解析のための合成データを生成する可能性を検討する。
具体的には、まず既存のラベル付き発話からマスク付きテンプレートを抽出し、次に微調整BARTを用いて抽出したテンプレートに合成音声を生成する。
最後に、生成された発話をフィルタリングするために補助パーサ(AP)を用いる。
APは生成されたデータの品質を保証する。
ナビゲーションドメインのためのfacebook top datasetの評価において、我々のアプローチの可能性を示す。
関連論文リスト
- fPLSA: Learning Semantic Structures in Document Collections Using Foundation Models [19.099810900404357]
本稿では,基礎モデルに基づく確率的潜在意味解析(PLSA)手法であるfPLSAを紹介する。
PLSAは文書レベルのコンテキストに基づいて文書セグメントを反復的にクラスタしタグ付けする。
ストーリーライティング、数学、多段階推論データセットに関する実験は、fPLSAタグが既存のタグ付け手法よりもオリジナルテキストの再構築に役立つことを示した。
論文 参考訳(メタデータ) (2024-10-07T20:25:52Z) - Synergizing Unsupervised and Supervised Learning: A Hybrid Approach for Accurate Natural Language Task Modeling [0.0]
本稿では,NLPタスクモデリングの精度を向上させるために,教師なし学習と教師なし学習を相乗化する新しいハイブリッド手法を提案する。
提案手法は,未ラベルコーパスから表現を学習する教師なしモジュールと,これらの表現を活用してタスク固有モデルを強化する教師付きモジュールを統合する。
手法の相乗化により、我々のハイブリッドアプローチはベンチマークデータセット上でSOTAの結果を達成し、よりデータ効率が高くロバストなNLPシステムを実現する。
論文 参考訳(メタデータ) (2024-06-03T08:31:35Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - Hierarchical Neural Data Synthesis for Semantic Parsing [16.284764879030448]
セマンティック解析のためのデータ拡張の純粋にニューラルなアプローチを提案する。
ゼロショット増強による開発セットの最先端性能(精度77.2%)を達成する。
論文 参考訳(メタデータ) (2021-12-04T01:33:08Z) - X2Parser: Cross-Lingual and Cross-Domain Framework for Task-Oriented
Compositional Semantic Parsing [51.81533991497547]
タスク指向コンポジションセマンティックパーシング(TCSP)は複雑なネストされたユーザクエリを処理する。
本報告では,TCSPの変換可能なクロスランガルとクロスドメインを比較した。
本稿では,フラット化意図とスロット表現を別々に予測し,両方の予測タスクをシーケンスラベリング問題にキャストすることを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:40:05Z) - Low-Resource Task-Oriented Semantic Parsing via Intrinsic Modeling [65.51280121472146]
私たちは本質的にオントロジーラベルについて知っているものを利用して、効率的なセマンティック解析モデルを構築します。
我々のモデルはTOPv2から派生した低リソースのベンチマークを用いて高効率である。
論文 参考訳(メタデータ) (2021-04-15T04:01:02Z) - Learning to Synthesize Data for Semantic Parsing [57.190817162674875]
本稿では,プログラムの構成をモデル化し,プログラムを発話にマップする生成モデルを提案する。
PCFGと事前学習されたBARTの簡易性により,既存のデータから効率的に生成モデルを学習することができる。
GeoQuery と Spider の標準ベンチマークで解析する text-to-Query の in-domain と out-of-domain の両方で、この手法を評価します。
論文 参考訳(メタデータ) (2021-04-12T21:24:02Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Assembling Semantically-Disentangled Representations for
Predictive-Generative Models via Adaptation from Synthetic Domain [32.42156485883356]
物理ベースエンジンの助けを借りて意味的に整合した表現を生成可能であることを示す。
提案手法は,実際のデータラベルに依存することなく,人間の顔特性の条件生成モデルを構築することができる。
論文 参考訳(メタデータ) (2020-02-23T03:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。