論文の概要: Semantic Parsing with Less Prior and More Monolingual Data
- arxiv url: http://arxiv.org/abs/2101.00259v1
- Date: Fri, 1 Jan 2021 16:02:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:15:00.279916
- Title: Semantic Parsing with Less Prior and More Monolingual Data
- Title(参考訳): 先行的・単言語データの少ないセマンティックパーシング
- Authors: Sajad Norouzi, Yanshuai Cao
- Abstract要約: 本研究では,ジェネリックトランスフォーマに基づくseq2seqモデルが,最小のセマンティックパース比帰納バイアス設計で競合性能を達成できるかどうかを検討する。
並列コーパスとは異なり、Webからマイニングするのに安価であるターゲットプログラミング言語の比較的大規模なモノリンガルコーパスを利用することで、Djangoの80.75%の正確な一致精度とCoNaLaの32.57のBLEUスコアを達成しました。
- 参考スコア(独自算出の注目度): 12.715221084359085
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Semantic parsing is the task of converting natural language utterances to
machine-understandable meaning representations, such as logic forms or
programming languages. Training datasets for semantic parsing are typically
small due to the higher expertise required for annotation than most other NLP
tasks. As a result, models for this application usually require additional
prior knowledge to be built into the architecture or algorithm. The increased
dependency on human experts hinders automation and raises the development and
maintenance costs in practice. This work investigates whether a generic
transformer-based seq2seq model can achieve competitive performance with
minimal semantic-parsing specific inductive bias design. By exploiting a
relatively large monolingual corpus of the target programming language, which
is cheap to mine from the web, unlike a parallel corpus, we achieved 80.75%
exact match accuracy on Django and 32.57 BLEU score on CoNaLa, both are SOTA to
the best of our knowledge. This positive evidence highlights a potentially
easier path toward building accurate semantic parsers in the wild.
- Abstract(参考訳): 意味解析は、自然言語の発話を論理形式やプログラミング言語などの機械理解可能な意味表現に変換するタスクである。
意味解析のためのトレーニングデータセットは通常、他のほとんどのNLPタスクよりもアノテーションに必要な高度な専門知識のために小さい。
結果として、このアプリケーションのモデルは通常、アーキテクチャやアルゴリズムに組み込まれる追加の事前知識を必要とします。
人間の専門家への依存が増加すると、自動化が妨げられ、実際に開発とメンテナンスのコストが高まる。
本研究は, 汎用トランスフォーマベースのseq2seqモデルが, 最小限のセマンティクスパース設計で競合性能を達成することができるかを検討するものである。
目的とするプログラミング言語の比較的大きな単言語コーパスを利用すると、並列コーパスとは異なり、djangoでは80.75%、conalaでは32.57 bleuスコアを達成し、どちらも最高の知識に対するsomaである。
この肯定的な証拠は、野生で正確なセマンティックパーサーを構築するための、潜在的に簡単な道のりを示している。
関連論文リスト
- How to Plant Trees in Language Models: Data and Architectural Effects on
the Emergence of Syntactic Inductive Biases [28.58785395946639]
事前学習は、微調整後にタスクを実行する際に、階層的な構文的特徴に依存するように言語モデルを教えることができることを示す。
アーキテクチャの特徴(深さ、幅、パラメータ数)と、事前学習コーパスのジャンルとサイズに焦点を当てる。
論文 参考訳(メタデータ) (2023-05-31T14:38:14Z) - On Robustness of Prompt-based Semantic Parsing with Large Pre-trained
Language Model: An Empirical Study on Codex [48.588772371355816]
本稿では,大規模なプロンプトベース言語モデルであるコーデックスの対角的ロバスト性に関する最初の実証的研究について述べる。
この結果から, 最先端の言語モデル(SOTA)は, 慎重に構築された敵の例に対して脆弱であることが示された。
論文 参考訳(メタデータ) (2023-01-30T13:21:00Z) - Training Naturalized Semantic Parsers with Very Little Data [10.709587018625275]
State-of-the-art(SOTA)セマンティクスは、大量のテキストに基づいて事前訓練された大規模な言語モデルに基づくセク2セックアーキテクチャである。
最近の研究は意味解析の改革を探求しており、出力シーケンスはそれ自体が自然言語文である。
本手法は,Overnightデータセット上で新たなSOTA数ショット性能を実現する。
論文 参考訳(メタデータ) (2022-04-29T17:14:54Z) - Neural Abstructions: Abstractions that Support Construction for Grounded
Language Learning [69.1137074774244]
言語の相互作用を効果的に活用するには、言語基底に対する2つの最も一般的なアプローチの制限に対処する必要がある。
本稿では,ラベル条件付き生成モデルの推論手順に対する制約のセットであるニューラル・アブストラクションの考え方を紹介する。
この手法により,マインクラフトにおけるオープンエンドハウスタスクのセマンティックな変更をユーザ人口が構築できることが示される。
論文 参考訳(メタデータ) (2021-07-20T07:01:15Z) - Pre-training Universal Language Representation [46.51685959045527]
この研究は普遍言語表現学習、すなわち、一様ベクトル空間に非常に多様な長さを持つ言語単位やテキストの異なるレベルの埋め込みを導入している。
我々は、よく設計された事前学習スキームが、効果的に普遍的な言語表現をもたらすことを実証的に検証する。
論文 参考訳(メタデータ) (2021-05-30T09:29:01Z) - Constrained Language Models Yield Few-Shot Semantic Parsers [73.50960967598654]
我々は,事前学習された大規模言語モデルの利用を,少ない意味論として検討する。
意味構文解析の目標は、自然言語入力によって構造化された意味表現を生成することである。
言語モデルを用いて、入力を英語に似た制御されたサブ言語にパラフレーズし、対象の意味表現に自動的にマッピングする。
論文 参考訳(メタデータ) (2021-04-18T08:13:06Z) - Infusing Finetuning with Semantic Dependencies [62.37697048781823]
シンタックスとは異なり、セマンティクスは今日の事前訓練モデルによって表面化されないことを示す。
次に、畳み込みグラフエンコーダを使用して、タスク固有の微調整にセマンティック解析を明示的に組み込む。
論文 参考訳(メタデータ) (2020-12-10T01:27:24Z) - Is Supervised Syntactic Parsing Beneficial for Language Understanding?
An Empirical Investigation [71.70562795158625]
従来のNLPは、高レベルセマンティック言語理解(LU)の成功に必要な構文解析を長い間保持(教師付き)してきた。
近年のエンドツーエンドニューラルネットワークの出現、言語モデリング(LM)による自己監視、および幅広いLUタスクにおける成功は、この信念に疑問を投げかけている。
本研究では,LM-Pretrained Transformer Network の文脈における意味的LUに対する教師あり構文解析の有用性を実証的に検討する。
論文 参考訳(メタデータ) (2020-08-15T21:03:36Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。