論文の概要: SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages
- arxiv url: http://arxiv.org/abs/2305.19204v1
- Date: Tue, 30 May 2023 16:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 14:55:53.479491
- Title: SWiPE: A Dataset for Document-Level Simplification of Wikipedia Pages
- Title(参考訳): SWiPE:ウィキペディアページのドキュメントレベル単純化のためのデータセット
- Authors: Philippe Laban, Jesse Vig, Wojciech Kryscinski, Shafiq Joty, Caiming
Xiong, Chien-Sheng Wu
- Abstract要約: 我々は、SWiPEデータセットを導入し、英語のウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案された19のカテゴリで4万以上の編集をラベル付けしています。
SWiPEで訓練されたモデルは、不要な編集を減らしながら、より複雑な編集を生成する。
- 参考スコア(独自算出の注目度): 87.08880616654258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text simplification research has mostly focused on sentence-level
simplification, even though many desirable edits - such as adding relevant
background information or reordering content - may require document-level
context. Prior work has also predominantly framed simplification as a
single-step, input-to-output task, only implicitly modeling the fine-grained,
span-level edits that elucidate the simplification process. To address both
gaps, we introduce the SWiPE dataset, which reconstructs the document-level
editing process from English Wikipedia (EW) articles to paired Simple Wikipedia
(SEW) articles. In contrast to prior work, SWiPE leverages the entire revision
history when pairing pages in order to better identify simplification edits. We
work with Wikipedia editors to annotate 5,000 EW-SEW document pairs, labeling
more than 40,000 edits with proposed 19 categories. To scale our efforts, we
propose several models to automatically label edits, achieving an F-1 score of
up to 70.6, indicating that this is a tractable but challenging NLU task.
Finally, we categorize the edits produced by several simplification models and
find that SWiPE-trained models generate more complex edits while reducing
unwanted edits.
- Abstract(参考訳): テキストの簡易化研究は主に文レベルの単純化に重点を置いているが、適切な背景情報の追加やコンテンツの再注文など、多くの望ましい編集には文書レベルのコンテキストが必要である。
以前の作業は、単純化プロセスを解明する細粒度でスパンレベルの編集を暗黙的にモデル化する単一ステップの入出力タスクとして、主に単純化された。
両ギャップに対処するため、SWiPEデータセットを導入し、英語ウィキペディア(EW)記事から単純なウィキペディア(SEW)記事への文書レベルの編集プロセスを再構築する。
以前の作業とは対照的に、SWiPEは、ページをペアリングする際のリビジョン履歴全体を活用して、単純化編集をより正確に識別する。
我々はウィキペディアの編集者と協力して5000のEW-SEWドキュメントペアを注釈付けし、提案19のカテゴリで4万以上の編集をラベル付けしています。
そこで我々は,F-1スコアを最大70.6まで達成し,編集を自動ラベル付けするモデルを提案し,これは難易度だが難解なNLUタスクであることを示す。
最後に、複数の単純化モデルによって生成された編集を分類し、SWiPEで訓練されたモデルが不要な編集を減らしながらより複雑な編集を生成することを示す。
関連論文リスト
- DocEdit-v2: Document Structure Editing Via Multimodal LLM Grounding [128.92659116774374]
大規模マルチモーダルモデル(LMM)を活用してエンドツーエンドの文書編集を行う新しいフレームワークDocEdit-v2を紹介する。
1) Doc2Commandは、興味のある編集領域(RoI)を同時にローカライズし、ユーザの編集要求を編集コマンドに曖昧にする; (2) LLMベースのコマンド改革により、元々はジェネラリストのLMMに適した編集命令に、特別なソフトウェア用に意図されたコマンドを調整して編集する; 3) DocEdit-v2は、GPT-4VやGeminiのような大規模マルチモーダルモデルを介してこれらの出力を処理し、文書レイアウトを解析し、編集を実行する。
論文 参考訳(メタデータ) (2024-10-21T19:59:04Z) - CoEdIT: Text Editing by Task-Specific Instruction Tuning [18.824571167583432]
CoEdIT (CoEdIT) は、テキスト編集システムである。
所望のテキストの属性を指定するユーザから命令を受け取り、編集されたテキストを出力する。
テキスト編集のためのタスク固有の命令の多種多様なコレクションに基づいて,大規模言語モデルを提案する。
論文 参考訳(メタデータ) (2023-05-17T00:05:24Z) - Understanding Iterative Revision from Human-Written Text [10.714872525208385]
IteraTeRは、反復的に修正されたテキストの最初の大規模、複数ドメイン、編集意図の注釈付きコーパスである。
テキストのリビジョンプロセスをよりよく理解し、編集意図と執筆品質の間に重要なつながりを築き上げます。
論文 参考訳(メタデータ) (2022-03-08T01:47:42Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Learning Structural Edits via Incremental Tree Transformations [102.64394890816178]
構造化データのインクリメンタルな編集(すなわち「構造的編集」)のための汎用モデルを提案する。
我々の編集者は、反復的にツリー編集(例えば、サブツリーの削除や追加)を生成し、部分的に編集されたデータに適用することを学びます。
提案したエディタを2つのソースコード編集データセットで評価した結果,提案する編集エンコーダでは,従来よりも精度が向上していることがわかった。
論文 参考訳(メタデータ) (2021-01-28T16:11:32Z) - Text Editing by Command [82.50904226312451]
ニューラルテキスト生成における一般的なパラダイムは、単一のステップでテキストを生成するワンショット生成である。
この制限をユーザが既存のテキストを編集するコマンドを発行することでシステムと対話するインタラクティブテキスト生成設定で解決する。
このデータセットに基づいてトレーニングされたトランスフォーマーベースモデルであるInteractive Editorは,ベースラインを上回り,自動評価と人的評価の両方において肯定的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-24T08:00:30Z) - A Structural Model for Contextual Code Changes [20.185486717922615]
部分的に編集されたコードスニペットが与えられた場合、私たちのゴールは、スニペットの残りの部分に対する編集の完了を予測することです。
提案モデルでは,最先端のシーケンシャルモデルよりも28%,編集コードの生成を学習する構文モデルよりも2倍高い精度を実現している。
論文 参考訳(メタデータ) (2020-05-27T07:16:19Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。