論文の概要: ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations
- arxiv url: http://arxiv.org/abs/2005.00481v1
- Date: Fri, 1 May 2020 16:44:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:56:49.599375
- Title: ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations
- Title(参考訳): ASSET:複数書き換え変換を用いた文単純化モデルのチューニングと評価のためのデータセット
- Authors: Fernando Alva-Manchego, Louis Martin, Antoine Bordes, Carolina
Scarton, Beno\^it Sagot, Lucia Specia
- Abstract要約: 本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
- 参考スコア(独自算出の注目度): 97.27005783856285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order to simplify a sentence, human editors perform multiple rewriting
transformations: they split it into several shorter sentences, paraphrase words
(i.e. replacing complex words or phrases by simpler synonyms), reorder
components, and/or delete information deemed unnecessary. Despite these varied
range of possible text alterations, current models for automatic sentence
simplification are evaluated using datasets that are focused on a single
transformation, such as lexical paraphrasing or splitting. This makes it
impossible to understand the ability of simplification models in more realistic
settings. To alleviate this limitation, this paper introduces ASSET, a new
dataset for assessing sentence simplification in English. ASSET is a
crowdsourced multi-reference corpus where each simplification was produced by
executing several rewriting transformations. Through quantitative and
qualitative experiments, we show that simplifications in ASSET are better at
capturing characteristics of simplicity when compared to other standard
evaluation datasets for the task. Furthermore, we motivate the need for
developing better methods for automatic evaluation using ASSET, since we show
that current popular metrics may not be suitable when multiple simplification
transformations are performed.
- Abstract(参考訳): 文章を単純化するために、人間の編集者は複数の書き直し変換を行い、複数の短い文、パラフレーズ語(複雑な単語やフレーズを単純な同義語で置き換える)、部品の並べ替え、不要と考えられる情報の削除を行う。
テキスト変更の可能な範囲は様々であるが、現在の自動文単純化モデルは、語彙パラフレーズや分割のような単一の変換に焦点を絞ったデータセットを用いて評価される。
これにより、より現実的な設定でモデルを単純化する能力を理解することが不可能になる。
この制限を緩和するために、英語で文の単純化を評価するための新しいデータセットであるASSETを導入する。
ASSETはクラウドソースのマルチ参照コーパスで、複数の書き換え変換を実行することで各単純化が実現された。
定量的・定性的な実験により,アセットの単純化は,タスクの他の標準評価データセットと比較して,単純さの特徴を捉えるのに優れていることを示した。
さらに,複数の簡易化変換を行う場合には,現在普及しているメトリクスが適さないことを示すため,アセットを用いた自動評価のためのより良い手法の開発を動機付ける。
関連論文リスト
- Inexact Simplification of Symbolic Regression Expressions with Locality-sensitive Hashing [0.7373617024876725]
シンボリック回帰は、データセットに正確に適合するパラメトリックモデルを検索し、単純さと解釈可能性の優先順位付けを行う。
高速な代数的単純化を適用することは、式を完全に単純化するものではなく、式のサイズや複雑さによって正確な方法が実現できない可能性がある。
局所性に敏感なハッシュ(LHS)を用いた効率的なメモ化を用いたSRの単純化と肥大化制御を提案する。
論文 参考訳(メタデータ) (2024-04-08T22:54:14Z) - SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages [87.08880616654258]
我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
論文 参考訳(メタデータ) (2023-05-30T16:52:42Z) - SASS: Data and Methods for Subject Aware Sentence Simplification [0.0]
本稿では,主観認識文の単純化を行う学習モデルを対象としたデータセットを提供する。
また、抽象的な要約に使われるモデルアーキテクチャにインスパイアされたデータセット上でモデルをテストします。
論文 参考訳(メタデータ) (2023-03-26T00:02:25Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - HETFORMER: Heterogeneous Transformer with Sparse Attention for Long-Text
Extractive Summarization [57.798070356553936]
HETFORMERはトランスフォーマーをベースとした事前学習モデルであり、抽出要約のための多粒度スパースアテンションを持つ。
単一文書と複数文書の要約タスクの実験から,HETFORMERがルージュF1の最先端性能を達成することが示された。
論文 参考訳(メタデータ) (2021-10-12T22:42:31Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases [20.84836431084352]
ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
論文 参考訳(メタデータ) (2020-05-01T12:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。