論文の概要: Document-Level Text Simplification: Dataset, Criteria and Baseline
- arxiv url: http://arxiv.org/abs/2110.05071v1
- Date: Mon, 11 Oct 2021 08:15:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 03:38:26.032471
- Title: Document-Level Text Simplification: Dataset, Criteria and Baseline
- Title(参考訳): ドキュメントレベルテキストの簡略化:データセット、基準、ベースライン
- Authors: Renliang Sun, Hanqi Jin, Xiaojun Wan
- Abstract要約: 文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
- 参考スコア(独自算出の注目度): 75.58761130635824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text simplification is a valuable technique. However, current research is
limited to sentence simplification. In this paper, we define and investigate a
new task of document-level text simplification, which aims to simplify a
document consisting of multiple sentences. Based on Wikipedia dumps, we first
construct a large-scale dataset named D-Wikipedia and perform analysis and
human evaluation on it to show that the dataset is reliable. Then, we propose a
new automatic evaluation metric called D-SARI that is more suitable for the
document-level simplification task. Finally, we select several representative
models as baseline models for this task and perform automatic evaluation and
human evaluation. We analyze the results and point out the shortcomings of the
baseline models.
- Abstract(参考訳): テキストの単純化は貴重なテクニックです。
しかし、現在の研究は文の単純化に限られている。
本稿では,複数の文からなる文書を簡略化することを目的とした,文書レベルのテキスト簡易化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、まずD-Wikipediaという大規模なデータセットを構築し、そのデータセットが信頼できることを示すために、分析と人的評価を行う。
そこで本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
最後に,タスクのベースラインモデルとして複数の代表モデルを選択し,自動評価と人的評価を行う。
結果を分析し,ベースラインモデルの欠点を指摘する。
関連論文リスト
- fPLSA: Learning Semantic Structures in Document Collections Using Foundation Models [19.099810900404357]
本稿では,基礎モデルに基づく確率的潜在意味解析(PLSA)手法であるfPLSAを紹介する。
PLSAは文書レベルのコンテキストに基づいて文書セグメントを反復的にクラスタしタグ付けする。
ストーリーライティング、数学、多段階推論データセットに関する実験は、fPLSAタグが既存のタグ付け手法よりもオリジナルテキストの再構築に役立つことを示した。
論文 参考訳(メタデータ) (2024-10-07T20:25:52Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - SASS: Data and Methods for Subject Aware Sentence Simplification [0.0]
本稿では,主観認識文の単純化を行う学習モデルを対象としたデータセットを提供する。
また、抽象的な要約に使われるモデルアーキテクチャにインスパイアされたデータセット上でモデルをテストします。
論文 参考訳(メタデータ) (2023-03-26T00:02:25Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Document-Level Abstractive Summarization [0.0]
非常に長いテキストの自動要約を改善するために,トランスフォーマー技術がいかに効果的かを検討する。
より小さなチャンクを処理して文書全体の要約を生成するコストを削減できる新しい検索強化手法を提案する。
論文 参考訳(メタデータ) (2022-12-06T14:39:09Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Pre-training for Abstractive Document Summarization by Reinstating
Source Text [105.77348528847337]
本稿では,Seq2Seqに基づく非ラベルテキストによる抽象要約モデルの事前学習を可能にする3つの事前学習目標を提案する。
2つのベンチマーク要約データセットの実験では、3つの目的がすべてベースラインでパフォーマンスを向上させることが示されている。
論文 参考訳(メタデータ) (2020-04-04T05:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。