論文の概要: Paraphrase Generation as Unsupervised Machine Translation
- arxiv url: http://arxiv.org/abs/2109.02950v1
- Date: Tue, 7 Sep 2021 09:08:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-08 20:39:39.340850
- Title: Paraphrase Generation as Unsupervised Machine Translation
- Title(参考訳): 教師なし機械翻訳としてのパラフレーズ生成
- Authors: Chun Fan, Yufei Tian, Yuxian Meng, Nanyun Peng, Xiaofei Sun, Fei Wu
and Jiwei Li
- Abstract要約: タスクを教師なし機械翻訳(UMT)として扱うことで、新しいパラフレーズ生成パラダイムを提案する。
提案したパラダイムは,まず大きなラベルのないコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。
すると、これらのUTTモデルによって生成されたパラフレーズペアに基づいて、統一的なサロゲートモデルが最後のSeq2Seqモデルとして機能してパラフレーズを生成するように訓練することができる。
- 参考スコア(独自算出の注目度): 30.99150547499427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose a new paradigm for paraphrase generation by
treating the task as unsupervised machine translation (UMT) based on the
assumption that there must be pairs of sentences expressing the same meaning in
a large-scale unlabeled monolingual corpus. The proposed paradigm first splits
a large unlabeled corpus into multiple clusters, and trains multiple UMT models
using pairs of these clusters. Then based on the paraphrase pairs produced by
these UMT models, a unified surrogate model can be trained to serve as the
final Seq2Seq model to generate paraphrases, which can be directly used for
test in the unsupervised setup, or be finetuned on labeled datasets in the
supervised setup. The proposed method offers merits over
machine-translation-based paraphrase generation methods, as it avoids reliance
on bilingual sentence pairs. It also allows human intervene with the model so
that more diverse paraphrases can be generated using different filtering
criteria. Extensive experiments on existing paraphrase dataset for both the
supervised and unsupervised setups demonstrate the effectiveness the proposed
paradigm.
- Abstract(参考訳): 本稿では,大規模無ラベル単言語コーパスに同じ意味を表わす文対が存在するという仮定に基づいて,タスクを教師なし機械翻訳(UMT)として扱うことで,フレーズ生成のための新しいパラダイムを提案する。
提案手法は,まず大規模未ラベルコーパスを複数のクラスタに分割し,これらのクラスタのペアを用いて複数のUTTモデルを訓練する。
次に、これらのumtモデルによって生成されたパラフレーゼペアに基づいて、統一されたサロゲートモデルが最終的なseq2seqモデルとして機能するように訓練して、教師なしのセットアップで直接テストしたり、教師なしのセットアップでラベル付きデータセットに微調整したりできるパラフレーゼを生成することができる。
提案手法は,バイリンガル文対への依存を避けるため,機械翻訳に基づくパラフレーズ生成法よりもメリットがある。
また、モデルに人間が介入することで、より多様なパラフレーズを異なるフィルタリング基準で生成することができる。
教師付きおよび教師なしのセットアップのための既存のパラフレーズデータセットに関する大規模な実験は、提案したパラダイムの有効性を示す。
関連論文リスト
- Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Unsupervised Syntactically Controlled Paraphrase Generation with
Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。
提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。
実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文 参考訳(メタデータ) (2022-11-02T04:58:38Z) - ConRPG: Paraphrase Generation using Contexts as Regularizer [31.967883219986362]
パラフレーズ生成の長年の問題として、信頼できる監視信号を得る方法がある。
本稿では,同じ文脈で同じ意味を持つ2つの文を生成する確率が同じであるという仮定に基づいて,パラフレーズ生成のための教師なしパラダイムを提案する。
本稿では、文脈言語モデルに基づくパラフレーズ候補生成、スコアリング関数を用いた候補フィルタリング、選択した候補に基づくパラフレーズモデルトレーニングからなるパイプラインシステムを提案する。
論文 参考訳(メタデータ) (2021-09-01T12:57:30Z) - Bilingual alignment transfers to multilingual alignment for unsupervised
parallel text mining [3.4519649635864584]
本研究は、ペアまたはペアなしのバイリンガルテキストを用いた言語間表現の学習手法を提案する。
我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。
論文 参考訳(メタデータ) (2021-04-15T17:51:22Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Unsupervised Paraphrase Generation using Pre-trained Language Models [0.0]
OpenAIのGPT-2は、流動的で、十分に定式化された、文法的に一貫性のあるテキストを生成する能力で有名である。
我々は、GPT-2のこの生成能力を活用し、ラベル付きデータから何の監督も受けずにパラフレーズを生成する。
実験の結果,我々のモデルで生成したパラフレーズは質が良く,多種多様であり,データ拡張に使用する場合のダウンストリームタスク性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-06-09T19:40:19Z) - A Probabilistic Formulation of Unsupervised Text Style Transfer [128.80213211598752]
従来提案されていた非生成的手法を統一した教師なしテキストスタイル転送のための深層生成モデルを提案する。
観測された各シーケンスを生成する並列潜時シーケンスを仮定することにより、我々のモデルは、完全に教師なしの方法で、あるドメインから別のドメインへシーケンスを変換することを学ぶ。
論文 参考訳(メタデータ) (2020-02-10T16:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。