論文の概要: Exploiting Summarization Data to Help Text Simplification
- arxiv url: http://arxiv.org/abs/2302.07124v1
- Date: Tue, 14 Feb 2023 15:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-15 15:06:23.538570
- Title: Exploiting Summarization Data to Help Text Simplification
- Title(参考訳): テキストの簡易化を支援する要約データのエクスプロイト
- Authors: Renliang Sun, Zhixian Yang, Xiaojun Wan
- Abstract要約: テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
- 参考スコア(独自算出の注目度): 50.0624778757462
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: One of the major problems with text simplification is the lack of
high-quality data. The sources of simplification datasets are limited to
Wikipedia and Newsela, restricting further development of this field. In this
paper, we analyzed the similarity between text summarization and text
simplification and exploited summarization data to help simplify. First, we
proposed an alignment algorithm to extract sentence pairs from summarization
datasets. Then, we designed four attributes to characterize the degree of
simplification and proposed a method to filter suitable pairs. We named these
pairs Sum4Simp (S4S). Next, we conducted human evaluations to show that S4S is
high-quality and compared it with a real simplification dataset. Finally, we
conducted experiments to illustrate that the S4S can improve the performance of
several mainstream simplification models, especially in low-resource scenarios.
- Abstract(参考訳): テキスト単純化の大きな問題の1つは、高品質なデータの欠如である。
単純化データセットのソースはWikipediaとNewselaに限られており、この分野のさらなる発展を制限する。
本稿では,テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化する。
まず,要約データセットから文対を抽出するアライメントアルゴリズムを提案する。
そこで, 単純化度を特徴付ける4つの属性を考案し, 適切な対をフィルタする方法を提案した。
我々はこれらのペアをSum4Simp (S4S)と名付けた。
次に,S4Sが高品質であることを示すため,人間による評価を行い,実際の単純化データセットと比較した。
最後に、s4sがいくつかの主流の単純化モデル、特に低リソースシナリオのパフォーマンスを向上させることができることを示す実験を行った。
関連論文リスト
- A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - SASS: Data and Methods for Subject Aware Sentence Simplification [0.0]
本稿では,主観認識文の単純化を行う学習モデルを対象としたデータセットを提供する。
また、抽象的な要約に使われるモデルアーキテクチャにインスパイアされたデータセット上でモデルをテストします。
論文 参考訳(メタデータ) (2023-03-26T00:02:25Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Text Simplification for Comprehension-based Question-Answering [7.144235435987265]
広く使われているSQuADデータセットの簡易バージョンであるSimple-SQuADをリリースする。
新たに作成したコーパスをベンチマークし,SQuADに基づく質問応答課題における単純化プロセスの効果を検討するためのアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-09-28T18:48:00Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。