論文の概要: Neural CRF Model for Sentence Alignment in Text Simplification
- arxiv url: http://arxiv.org/abs/2005.02324v4
- Date: Mon, 30 Aug 2021 18:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 14:08:48.144262
- Title: Neural CRF Model for Sentence Alignment in Text Simplification
- Title(参考訳): テキスト単純化における文アライメントのためのニューラルCRFモデル
- Authors: Chao Jiang, Mounica Maddela, Wuwei Lan, Yang Zhong, Wei Xu
- Abstract要約: 我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 31.62648025127563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The success of a text simplification system heavily depends on the quality
and quantity of complex-simple sentence pairs in the training corpus, which are
extracted by aligning sentences between parallel articles. To evaluate and
improve sentence alignment quality, we create two manually annotated
sentence-aligned datasets from two commonly used text simplification corpora,
Newsela and Wikipedia. We propose a novel neural CRF alignment model which not
only leverages the sequential nature of sentences in parallel documents but
also utilizes a neural sentence pair model to capture semantic similarity.
Experiments demonstrate that our proposed approach outperforms all the previous
work on monolingual sentence alignment task by more than 5 points in F1. We
apply our CRF aligner to construct two new text simplification datasets,
Newsela-Auto and Wiki-Auto, which are much larger and of better quality
compared to the existing datasets. A Transformer-based seq2seq model trained on
our datasets establishes a new state-of-the-art for text simplification in both
automatic and human evaluation.
- Abstract(参考訳): テキスト単純化システムの成功は、並列記事間の文の整列によって抽出される訓練コーパスにおける複素単純文対の品質と量に大きく依存する。
文のアライメントの質を評価するために、よく使われる2つのテキスト単純化コーパス、NewselaとWikipediaから、手動で注釈付き文アライメントデータセットを作成する。
本稿では,並列文書における文の逐次的性質を利用するだけでなく,意味的類似性を捉えるためにニューラルネットワークの文対モデルを用いる新しいニューラルネットワークcrfアライメントモデルを提案する。
実験により,提案手法は,前回の単言語文アライメントタスクにおいて,f1の5点以上で全ての作業に勝ることを実証した。
我々は,既存のデータセットよりもはるかに大きく,高品質な2つの新しいテキスト単純化データセットであるNewsela-AutoとWiki-Autoを構築するために,CRF整合器を適用した。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
関連論文リスト
- Learning to Paraphrase Sentences to Different Complexity Levels [3.0273878903284275]
文の単純化はNLPにおいて活発な研究課題であるが,その隣接する文の複雑化や同レベルのパラフレーズ化の課題はそうではない。
3つのタスクすべてでモデルをトレーニングするために、教師なしデータセットを2つ提示する。
論文 参考訳(メタデータ) (2023-08-04T09:43:37Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Neural semi-Markov CRF for Monolingual Word Alignment [20.897157172049877]
可変長スパンによる単語と句のアライメントを統一するニューラルセミマルコフCRFアライメントモデルを提案する。
また、人間のアノテーションによる新しいベンチマークを作成し、4つの異なるテキストジャンルをカバーし、モノリンガルな単語アライメントモデルを評価する。
論文 参考訳(メタデータ) (2021-06-04T16:04:00Z) - Neural Data-to-Text Generation with LM-based Text Augmentation [27.822282190362856]
弱教師付きトレーニングパラダイムは10%未満のアノテーションで完全に教師付きセq2seqモデルより優れていることを示す。
すべての注釈付きデータを利用することで、標準のSeq2seqモデルの性能を5 BLEUポイント以上向上させることができる。
論文 参考訳(メタデータ) (2021-02-06T10:21:48Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Data-to-Text Generation with Iterative Text Editing [3.42658286826597]
本稿では,反復的テキスト編集に基づく新しいデータ・テキスト生成手法を提案する。
まず、自明なテンプレートを用いてデータ項目をテキストに変換し、その後、文融合タスクのために訓練されたニューラルモデルにより結果のテキストを反復的に改善する。
モデルの出力は単純で、既製の事前訓練言語モデルで再帰的にフィルタリングされる。
論文 参考訳(メタデータ) (2020-11-03T13:32:38Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。