論文の概要: Semi-Supervised Text Simplification with Back-Translation and Asymmetric
Denoising Autoencoders
- arxiv url: http://arxiv.org/abs/2004.14693v1
- Date: Thu, 30 Apr 2020 11:19:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 04:15:33.337676
- Title: Semi-Supervised Text Simplification with Back-Translation and Asymmetric
Denoising Autoencoders
- Title(参考訳): バックトランスレーションと非対称Denoising Autoencodersを用いた半教師付きテキスト単純化
- Authors: Yanbin Zhao, Lu Chen, Zhi Chen, Kai Yu
- Abstract要約: テキスト単純化(TS)は、長い文を単純化した変種に言い換え、固有の意味を保ちながら表現する。
本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。
本稿では,異なる複雑さを持つ文に対する非対称な記述法を提案する。
- 参考スコア(独自算出の注目度): 37.949101113934226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text simplification (TS) rephrases long sentences into simplified variants
while preserving inherent semantics. Traditional sequence-to-sequence models
heavily rely on the quantity and quality of parallel sentences, which limits
their applicability in different languages and domains. This work investigates
how to leverage large amounts of unpaired corpora in TS task. We adopt the
back-translation architecture in unsupervised machine translation (NMT),
including denoising autoencoders for language modeling and automatic generation
of parallel data by iterative back-translation. However, it is non-trivial to
generate appropriate complex-simple pair if we directly treat the set of simple
and complex corpora as two different languages, since the two types of
sentences are quite similar and it is hard for the model to capture the
characteristics in different types of sentences. To tackle this problem, we
propose asymmetric denoising methods for sentences with separate complexity.
When modeling simple and complex sentences with autoencoders, we introduce
different types of noise into the training process. Such a method can
significantly improve the simplification performance. Our model can be trained
in both unsupervised and semi-supervised manner. Automatic and human
evaluations show that our unsupervised model outperforms the previous systems,
and with limited supervision, our model can perform competitively with multiple
state-of-the-art simplification systems.
- Abstract(参考訳): text simplification (ts) は、本質的な意味を保ちながら、長い文を単純化した変形に再現する。
従来のシーケンシャル・ツー・シーケンスモデルは、異なる言語やドメインに適用性を制限する並列文の量と品質に大きく依存している。
本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。
我々は,非教師なし機械翻訳(nmt)におけるバックトランスレーションアーキテクチャを採用し,言語モデリングのための自動符号化や反復バックトランスレーションによる並列データの自動生成を行う。
しかし,2種類の文が非常に類似しており,その特徴を異なるタイプの文で捉えることは困難であるため,単純で複雑なコーパスを2つの異なる言語として直接扱う場合,適切な複素対を生成することは容易ではない。
この問題に対処するために,異なる複雑さを持つ文に対する非対称な記述法を提案する。
単純で複雑な文をオートエンコーダでモデル化する場合、トレーニングプロセスに異なる種類のノイズを導入する。
このような方法は単純化性能を大幅に向上させることができる。
我々のモデルは教師なしとセミ教師なしの両方で訓練することができる。
自動評価と人間評価は, 教師なしモデルが先行システムよりも優れており, 限定的な監督により, 複数の最先端の単純化システムと競合して実行可能であることを示す。
関連論文リスト
- Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training [0.0]
データ不足を克服する2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
論文 参考訳(メタデータ) (2023-05-22T10:41:30Z) - Hierarchical Phrase-based Sequence-to-Sequence Learning [94.10257313923478]
本稿では、学習中の帰納バイアスの源として階層的フレーズを取り入れ、推論中の明示的な制約として、標準的なシーケンス・ツー・シーケンス(seq2seq)モデルの柔軟性を維持するニューラルトランスデューサについて述べる。
本手法では,木が原文と対象句を階層的に整列するブラケット文法に基づく識別的導出法と,整列した句を1対1で翻訳するニューラルネットワークセク2セックモデルという2つのモデルを訓練する。
論文 参考訳(メタデータ) (2022-11-15T05:22:40Z) - A Template-based Method for Constrained Neural Machine Translation [100.02590022551718]
本稿では,デコード速度を維持しつつ,高い翻訳品質と精度で結果が得られるテンプレートベースの手法を提案する。
テンプレートの生成と導出は、1つのシーケンスからシーケンスまでのトレーニングフレームワークを通じて学習することができる。
実験結果から,提案手法は語彙的,構造的に制約された翻訳タスクにおいて,いくつかの代表的ベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2022-05-23T12:24:34Z) - Unsupervised Mismatch Localization in Cross-Modal Sequential Data [5.932046800902776]
我々は、コンテンツミスマッチしたクロスモーダルデータ間の関係を推測できる教師なし学習アルゴリズムを開発した。
本稿では,音声生成過程を階層的に構造化された潜在変数に分解する,ミスマッチ局所化変分自動符号化(ML-VAE)という階層型ベイズディープラーニングモデルを提案する。
実験の結果,ML-VAEは人間のアノテーションを必要とせず,テキストと音声のミスマッチの特定に成功した。
論文 参考訳(メタデータ) (2022-05-05T14:23:27Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Structured Reordering for Modeling Latent Alignments in Sequence
Transduction [86.94309120789396]
本稿では,分離可能な置換の辺りを正確に推定する効率的な動的プログラミングアルゴリズムを提案する。
結果のSeq2seqモデルは、合成問題やNLPタスクの標準モデルよりも体系的な一般化が優れている。
論文 参考訳(メタデータ) (2021-06-06T21:53:54Z) - Simplify-then-Translate: Automatic Preprocessing for Black-Box Machine
Translation [5.480070710278571]
文の単純化による自動前処理(APP)によるブラックボックス機械翻訳システムの改善手法を提案する。
まず,ブラックボックスMTシステムによるバックトランスレーションにより,大規模なドメイン内パラフレーズコーパスを自動生成する手法を提案する。
この前処理によって、非前処理のソース文と比較して翻訳性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-22T14:15:53Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。