論文の概要: ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation
- arxiv url: http://arxiv.org/abs/2305.16585v1
- Date: Fri, 26 May 2023 02:27:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 17:19:21.681488
- Title: ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation
- Title(参考訳): ParaAMR: AMRバックトランスレーションによる大規模構文逆パラフレーズデータセット
- Authors: Kuan-Hao Huang, Varun Iyer, I-Hung Hsu, Anoop Kumar, Kai-Wei Chang,
Aram Galstyan
- Abstract要約: ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
- 参考スコア(独自算出の注目度): 59.91139600152296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Paraphrase generation is a long-standing task in natural language processing
(NLP). Supervised paraphrase generation models, which rely on human-annotated
paraphrase pairs, are cost-inefficient and hard to scale up. On the other hand,
automatically annotated paraphrase pairs (e.g., by machine back-translation),
usually suffer from the lack of syntactic diversity -- the generated paraphrase
sentences are very similar to the source sentences in terms of syntax. In this
work, we present ParaAMR, a large-scale syntactically diverse paraphrase
dataset created by abstract meaning representation back-translation. Our
quantitative analysis, qualitative examples, and human evaluation demonstrate
that the paraphrases of ParaAMR are syntactically more diverse compared to
existing large-scale paraphrase datasets while preserving good semantic
similarity. In addition, we show that ParaAMR can be used to improve on three
NLP tasks: learning sentence embeddings, syntactically controlled paraphrase
generation, and data augmentation for few-shot learning. Our results thus
showcase the potential of ParaAMR for improving various NLP applications.
- Abstract(参考訳): パラフレーズ生成は自然言語処理(NLP)における長年の課題である。
ヒトの注釈付きパラフレーズペアに依存するスーパービジョン付きパラフレーズ生成モデルは、コスト非効率でスケールアップが困難である。
一方、自動アノテートされた言い換えペア(例えば機械の逆翻訳)は、通常、構文の多様性の欠如に苦しむ -- 生成された言い換え文は、構文の点で、元の文と非常によく似ている。
本稿では,抽象的な表現のバックトランスレーションによって生成した大規模構文的多様パラフレーズデータセットであるParaAMRを提案する。
定量的解析,質的例,人的評価により,既存の大規模paraphraseデータセットに比べてparaamrのパラフラスは構文的に多様であり,意味的類似性は良好であることが示された。
さらに,ParaAMRは文の埋め込みの学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という3つのNLPタスクの改善に利用できることを示す。
そこで本研究では,NLPアプリケーションの改善に向けたParaAMRの可能性を示す。
関連論文リスト
- A Quality-based Syntactic Template Retriever for
Syntactically-controlled Paraphrase Generation [67.98367574025797]
既存の構文制御されたパラフレーズ生成モデルは、人間の注釈付きまたはよく書かれた構文テンプレートで有望に機能する。
禁止コストにより、ソース文ごとに適切なテンプレートを手作業で設計することは不可能になります。
本稿では,QSTR(Quality-based Syntactic Template Retriever)を提案する。
論文 参考訳(メタデータ) (2023-10-20T03:55:39Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - Hierarchical Sketch Induction for Paraphrase Generation [79.87892048285819]
本稿では、高密度符号化の分解を学習するHRQ-VAE(Hierarchical Refinement Quantized Variational Autoencoders)を紹介する。
HRQ-VAEを用いて、入力文の構文形式を階層化の経路としてエンコードすることで、テスト時の構文スケッチをより容易に予測できる。
論文 参考訳(メタデータ) (2022-03-07T15:28:36Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - Phrase-BERT: Improved Phrase Embeddings from BERT with an Application to
Corpus Exploration [25.159601117722936]
我々は,BERTがより強力なフレーズ埋め込みを生成可能な,対照的な微調整対象を提案する。
提案手法は,パラフレーズ生成モデルを用いて自動生成される多種多様なパラフレーズのデータセットに依存する。
ケーススタディでは、フレーズベースのニューラルトピックモデルを構築するために、Phrase-BERT埋め込みを単純なオートエンコーダと簡単に統合できることが示されている。
論文 参考訳(メタデータ) (2021-09-13T20:31:57Z) - Pushing Paraphrase Away from Original Sentence: A Multi-Round Paraphrase
Generation Approach [97.38622477085188]
パラフレーズの多様性を向上させるためにBTmPG(Back-Translation Guided Multi-round Paraphrase Generation)を提案する。
2つのベンチマークデータセット上でBTmPGを評価する。
論文 参考訳(メタデータ) (2021-09-04T13:12:01Z) - Generating Syntactically Controlled Paraphrases without Using Annotated
Parallel Pairs [37.808235216195484]
注釈付きパラフレーズペアを必要とせずに,構文的に様々なパラフレーズを生成できることが示唆された。
構文制御パラフレーズ生成(SynPG: Syntactically Control Paraphrase Generator)は,文の意味と構文を解読するエンコーダデコーダベースのモデルである。
論文 参考訳(メタデータ) (2021-01-26T06:13:52Z) - Paraphrase Generation as Zero-Shot Multilingual Translation:
Disentangling Semantic Similarity from Lexical and Syntactic Diversity [11.564158965143418]
本稿では,入力に含まれるn-gramの生成を阻害する単純なパラフレーズ生成アルゴリズムを提案する。
一つの多言語NMTモデルから多くの言語でパラフレーズ生成が可能となる。
論文 参考訳(メタデータ) (2020-08-11T18:05:34Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。