論文の概要: Improving Large-scale Paraphrase Acquisition and Generation
- arxiv url: http://arxiv.org/abs/2210.03235v1
- Date: Thu, 6 Oct 2022 22:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 13:42:00.754585
- Title: Improving Large-scale Paraphrase Acquisition and Generation
- Title(参考訳): 大規模パラフレーズ獲得と生成の改善
- Authors: Yao Dou, Chao Jiang, Wei Xu
- Abstract要約: 本稿では、既存のTwitterベースのパラフレーズデータセットの品質問題に対処する。
我々は,合計130kの文対からなるTwitter(MultiPIT)コーパスに,新しい多目的パラフレーズを提案する。
- 参考スコア(独自算出の注目度): 19.085315767671233
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper addresses the quality issues in existing Twitter-based paraphrase
datasets, and discusses the necessity of using two separate definitions of
paraphrase for identification and generation tasks. We present a new
Multi-Topic Paraphrase in Twitter (MultiPIT) corpus that consists of a total of
130k sentence pairs with crowdsoursing (MultiPIT_crowd) and expert
(MultiPIT_expert) annotations using two different paraphrase definitions for
paraphrase identification, in addition to a multi-reference test set
(MultiPIT_NMR) and a large automatically constructed training set
(MultiPIT_Auto) for paraphrase generation. With improved data annotation
quality and task-specific paraphrase definition, the best pre-trained language
model fine-tuned on our dataset achieves the state-of-the-art performance of
84.2 F1 for automatic paraphrase identification. Furthermore, our empirical
results also demonstrate that the paraphrase generation models trained on
MultiPIT_Auto generate more diverse and high-quality paraphrases compared to
their counterparts fine-tuned on other corpora such as Quora, MSCOCO, and
ParaNMT.
- Abstract(参考訳): 本稿では,既存のtwitterベースのparaphraseデータセットの品質問題を取り上げ,paraphraseの2つの定義を識別および生成タスクに使用する必要性について論じる。
パラフレーズ生成のための多参照テストセット(MultiPIT_NMR)と大規模自動構築トレーニングセット(MultiPIT_Auto)に加えて、パラフレーズ識別のための2つの異なるパラフレーズ定義を用いた合計130k文対のクラウドソーシング(MultiPIT_crowd)とエキスパート(MultiPIT_expert)アノテーションからなるTwitter(MultiPIT)コーパスを提案する。
データアノテーションの品質とタスク固有のパラフレーズ定義の改善により、データセットに微調整された最高の事前学習言語モデルは、自動パラフレーズ識別のための84.2 F1の最先端性能を達成する。
さらに,マルチpit_autoで学習したパラフレーズ生成モデルは,quora,mscoco,paranmtなどのコーパスで微調整されたモデルに比べて,より多様で高品質なパラフレーズを生成する。
関連論文リスト
- MetaKP: On-Demand Keyphrase Generation [52.48698290354449]
オンデマンドのキーフレーズ生成は,特定のハイレベルな目標や意図に従うキーフレーズを必要とする新しいパラダイムである。
そこで我々は,4つのデータセット,7500のドキュメント,3760の目標からなる大規模ベンチマークであるMetaKPを紹介した。
ソーシャルメディアからの流行事象検出に応用して,一般のNLP基盤として機能する可能性を示す。
論文 参考訳(メタデータ) (2024-06-28T19:02:59Z) - Cross-lingual paraphrase identification [0.0]
複数の言語にまたがるハードパラフレーズを検出するために,両エンコーダモデルを対照的に訓練する。
私たちのパフォーマンスは最先端のクロスエンコーダに匹敵します。
論文 参考訳(メタデータ) (2024-06-21T11:37:24Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - ParaAMR: A Large-Scale Syntactically Diverse Paraphrase Dataset by AMR
Back-Translation [59.91139600152296]
ParaAMRは、抽象的な表現のバックトランスレーションによって生成される、大規模な構文的に多様なパラフレーズデータセットである。
そこで本研究では,ParaAMRを用いて文の埋め込み学習,構文的に制御されたパラフレーズ生成,数ショット学習のためのデータ拡張という,3つのNLPタスクを改善することができることを示す。
論文 参考訳(メタデータ) (2023-05-26T02:27:33Z) - Paraphrase Generation as Unsupervised Machine Translation [30.99150547499427]
タスクを教師なし機械翻訳(UMT)として扱うことで、新しいパラフレーズ生成パラダイムを提案する。
提案したパラダイムは,まず大きなラベルのないコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。
すると、これらのUTTモデルによって生成されたパラフレーズペアに基づいて、統一的なサロゲートモデルが最後のSeq2Seqモデルとして機能してパラフレーズを生成するように訓練することができる。
論文 参考訳(メタデータ) (2021-09-07T09:08:58Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z) - BURT: BERT-inspired Universal Representation from Twin Structure [89.82415322763475]
BURT (BERT inspired Universal Representation from Twin Structure) は任意の粒度の入力シーケンスに対して普遍的で固定サイズの表現を生成することができる。
提案するBURTは,Siameseネットワークを採用し,自然言語推論データセットから文レベル表現を学習し,パラフレーズ化データセットから単語/フレーズレベル表現を学習する。
我々は,STSタスク,SemEval2013 Task 5(a) など,テキスト類似性タスクの粒度によってBURTを評価する。
論文 参考訳(メタデータ) (2020-04-29T04:01:52Z) - A Multi-cascaded Model with Data Augmentation for Enhanced Paraphrase
Detection in Short Texts [1.6758573326215689]
短文のパラフレーズ検出を改善するために,データ拡張戦略とマルチカスケードモデルを提案する。
私たちのモデルは広くて深く、クリーンでノイズの多い短いテキストにまたがってより堅牢性を提供します。
論文 参考訳(メタデータ) (2019-12-27T12:10:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。