論文の概要: Training Naturalized Semantic Parsers with Very Little Data
- arxiv url: http://arxiv.org/abs/2204.14243v1
- Date: Fri, 29 Apr 2022 17:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-02 17:09:23.595704
- Title: Training Naturalized Semantic Parsers with Very Little Data
- Title(参考訳): ごく少ないデータで自然化意味パーサをトレーニングする
- Authors: Subendhu Rongali, Konstantine Arkoudas, Melanie Rubino, Wael Hamza
- Abstract要約: State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
- 参考スコア(独自算出の注目度): 10.709587018625275
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic parsing is an important NLP problem, particularly for voice
assistants such as Alexa and Google Assistant. State-of-the-art (SOTA) semantic
parsers are seq2seq architectures based on large language models that have been
pretrained on vast amounts of text. To better leverage that pretraining, recent
work has explored a reformulation of semantic parsing whereby the output
sequences are themselves natural language sentences, but in a controlled
fragment of natural language. This approach delivers strong results,
particularly for few-shot semantic parsing, which is of key importance in
practice and the focus of our paper. We push this line of work forward by
introducing an automated methodology that delivers very significant additional
improvements by utilizing modest amounts of unannotated data, which is
typically easy to obtain. Our method is based on a novel synthesis of four
techniques: joint training with auxiliary unsupervised tasks; constrained
decoding; self-training; and paraphrasing. We show that this method delivers
new SOTA few-shot performance on the Overnight dataset, particularly in very
low-resource settings, and very compelling few-shot results on a new semantic
parsing dataset.
- Abstract(参考訳): セマンティック解析は重要なNLP問題であり、特にAlexaやGoogle Assistantのような音声アシスタントでは問題となる。
state-of-the-art(sota)セマンティクスパーサは、大量のテキストで事前学習された大規模言語モデルに基づくseq2seqアーキテクチャである。
この事前学習をよりうまく活用するために、最近の研究は、出力シーケンス自体が自然言語文ではなく、自然言語の制御された断片である意味構文解析の再構成を探求している。
このアプローチは、特に、実践と私たちの論文の焦点において重要な意味的構文解析において、強い結果をもたらします。
私たちは、比較的少ない量の無記名データを利用することで、非常に大きな改善を提供する自動化手法を導入することで、この一連の作業を前進させます。
本手法は, 補助的教師なしタスクとの協調訓練, 制約付き復号化, 自己学習, パラフレージングの4つの手法を新たに合成した。
本手法は,特に低リソース環境において,Overnightデータセット上で新たなSOTA数ショット性能を実現するとともに,新しいセマンティック解析データセット上で非常に魅力的な数ショット結果を提供する。
関連論文リスト
- Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Training Effective Neural Sentence Encoders from Automatically Mined
Paraphrases [0.0]
そこで本稿では,手動でラベル付けしたデータを用いずに,効果的な言語固有文エンコーダを訓練する手法を提案する。
本研究の目的は,文の一致したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築することである。
文エンコーダは1枚のグラフィックカードで1日以内で訓練でき、多種多様な文レベルのタスクで高い性能を達成できる。
論文 参考訳(メタデータ) (2022-07-26T09:08:56Z) - Curriculum-Based Self-Training Makes Better Few-Shot Learners for
Data-to-Text Generation [56.98033565736974]
テキスト生成の困難さによって決定される並べ替え順序でラベルのないデータを活用するために,カリキュラムベースの自己学習(CBST)を提案する。
提案手法は、微調整およびタスク適応型事前学習法より優れており、データ・テキスト・ジェネレーションのわずかな設定で最先端の性能を実現することができる。
論文 参考訳(メタデータ) (2022-06-06T16:11:58Z) - On the Use of External Data for Spoken Named Entity Recognition [40.93448412171246]
近年の自己教師型音声表現の進歩により,ラベル付きデータに制限のある学習モデルを考えることが可能になった。
自己学習、知識蒸留、トランスファーラーニングなど、さまざまなアプローチを採用し、エンドツーエンドモデルとパイプラインアプローチの両方に適用性を検討する。
論文 参考訳(メタデータ) (2021-12-14T18:49:26Z) - To Augment or Not to Augment? A Comparative Study on Text Augmentation
Techniques for Low-Resource NLP [0.0]
本稿では,構文の変更を行うテキスト拡張手法の3つのカテゴリについて検討する。
音声のタグ付けや依存性解析,セマンティックロールのラベル付けなどにおいて,多種多様な言語ファミリに対して比較を行った。
以上の結果から,mBERTに基づくベースラインの強化により,より高機能化が可能であることが示唆された。
論文 参考訳(メタデータ) (2021-11-18T10:52:48Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Semantic Parsing with Less Prior and More Monolingual Data [12.715221084359085]
本研究では,ジェネリックトランスフォーマに基づくseq2seqモデルが,最小のセマンティックパース比帰納バイアス設計で競合性能を達成できるかどうかを検討する。
並列コーパスとは異なり、Webからマイニングするのに安価であるターゲットプログラミング言語の比較的大規模なモノリンガルコーパスを利用することで、Djangoの80.75%の正確な一致精度とCoNaLaの32.57のBLEUスコアを達成しました。
論文 参考訳(メタデータ) (2021-01-01T16:02:38Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Low-Resource Domain Adaptation for Compositional Task-Oriented Semantic
Parsing [85.35582118010608]
タスク指向のセマンティックパーシングは仮想アシスタントの重要なコンポーネントである。
近年のディープラーニングの進歩は、より複雑なクエリを解析するいくつかのアプローチを可能にしている。
そこで本研究では,教師付きニューラルネットワークを10倍の精度で高速化する手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T17:47:53Z) - Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。
マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文 参考訳(メタデータ) (2020-04-12T09:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。