論文の概要: Simple is not Enough: Document-level Text Simplification using Readability and Coherence
- arxiv url: http://arxiv.org/abs/2412.18655v1
- Date: Tue, 24 Dec 2024 19:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:27:14.219666
- Title: Simple is not Enough: Document-level Text Simplification using Readability and Coherence
- Title(参考訳): 単純ではない:可読性とコヒーレンスを用いた文書レベルのテキストの簡略化
- Authors: Laura Vásquez-Rodríguez, Nhung T. H. Nguyen, Piotr Przybyła, Matthew Shardlow, Sophia Ananiadou,
- Abstract要約: 我々は,コヒーレンスなどの簡易性,可読性,談話性を考慮した簡易化モデルであるSimDocシステムを提案する。
私たちは、シンプルさ、可読性、一貫性をすべて考慮し、トレーニング中に複数の目標を含みます。
本稿では、文書レベルのTSコーパスを用いて、ゼロショット、少数ショット、微調整設定で提案したモデルを評価する。
- 参考スコア(独自算出の注目度): 20.613410797137036
- License:
- Abstract: In this paper, we present the SimDoc system, a simplification model considering simplicity, readability, and discourse aspects, such as coherence. In the past decade, the progress of the Text Simplification (TS) field has been mostly shown at a sentence level, rather than considering paragraphs or documents, a setting from which most TS audiences would benefit. We propose a simplification system that is initially fine-tuned with professionally created corpora. Further, we include multiple objectives during training, considering simplicity, readability, and coherence altogether. Our contributions include the extension of professionally annotated simplification corpora by the association of existing annotations into (complex text, simple text, readability label) triples to benefit from readability during training. Also, we present a comparative analysis in which we evaluate our proposed models in a zero-shot, few-shot, and fine-tuning setting using document-level TS corpora, demonstrating novel methods for simplification. Finally, we show a detailed analysis of outputs, highlighting the difficulties of simplification at a document level.
- Abstract(参考訳): 本稿では,コヒーレンスなどの簡易性,可読性,談話性を考慮した簡易化モデルであるSimDocシステムを提案する。
過去10年間で、テキスト単純化(TS)分野の進歩は、ほとんどのTSオーディエンスにとって有利な条件である段落や文書ではなく、文レベルで示されてきた。
本稿では,プロのコーパスを組み込んだ単純化システムを提案する。
さらに、シンプルさ、可読性、一貫性をすべて考慮し、トレーニング中に複数の目的を取り入れています。
私たちのコントリビューションには、既存のアノテーションを(複雑なテキスト、単純なテキスト、可読性ラベル)トリプルに関連付けることで、トレーニング中の可読性の恩恵を受けることで、プロの注釈付き単純化コーパスの拡張が含まれています。
また、文書レベルのTSコーパスを用いて、ゼロショット、少数ショット、微調整設定で提案したモデルの評価を行い、単純化のための新しい手法を示す。
最後に、文書レベルでの単純化の難しさを浮き彫りにして、アウトプットの詳細な分析を行う。
関連論文リスト
- Analysing Zero-Shot Readability-Controlled Sentence Simplification [54.09069745799918]
本研究では,異なる種類の文脈情報が,所望の可読性を持つ文を生成するモデルの能力に与える影響について検討する。
結果から,全ての試験されたモデルは,原文の制限や特徴のため,文の簡略化に苦慮していることがわかった。
実験では、RCTSに合わせたより良い自動評価指標の必要性も強調した。
論文 参考訳(メタデータ) (2024-09-30T12:36:25Z) - Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation [9.618393813409266]
本稿では,文書レベルの簡易化評価に焦点をあてる。
我々は、意味の保存と単純化のために異なる指標を用いて既存のモデルを比較した。
我々は、単純さのために参照なし計量変種を導入し、モデルは、単純化または意味保存のどちらにも偏っていることを示す。
論文 参考訳(メタデータ) (2024-04-04T08:04:24Z) - Controlling Pre-trained Language Models for Grade-Specific Text
Simplification [22.154454849167077]
本研究では,異なる制御機構がテキスト単純化システムの妥当性と簡易性に与える影響について検討する。
本稿では,インスタンス単位のインスタンス単位で,特定のグレードレベルのテキストを簡略化するために必要な編集操作を簡易に予測する手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:29:45Z) - Elaborative Simplification as Implicit Questions Under Discussion [51.17933943734872]
本稿では,QUD フレームワークのレンズによる共同作業の簡略化について考察する。
本研究は,QUDを明示的にモデル化することで,作業の単純化と,作業内容と作業内容の関連性について,重要な理解が得られていることを示す。
論文 参考訳(メタデータ) (2023-05-17T17:26:16Z) - Context-Aware Document Simplification [3.2880869992413237]
単純化プロセス自体で文書コンテキストを使用するシステムについて検討する。
我々は,計画指導に頼らずとも,文書の簡略化作業における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-10T16:06:36Z) - NapSS: Paragraph-level Medical Text Simplification via Narrative
Prompting and Sentence-matching Summarization [46.772517928718216]
そこで我々はNapSSと呼ばれる2段階戦略を提案する。
NapSSは、オリジナルの物語の流れが保存されていることを保証しながら、関連コンテンツを特定し、単純化する。
本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に優れている。
論文 参考訳(メタデータ) (2023-02-11T02:20:25Z) - Unsupervised Sentence Simplification via Dependency Parsing [4.337513096197002]
本稿では,単純だが教師なしの文簡略化システムを提案する。
構文解析と文の埋め込みを利用して言語学的に効果的な単純化を生成する。
我々は、テュルクコルプスの39.13 SARIにおいて、教師なしの最先端を定め、様々な品質指標の教師なしベースラインに対して競争的に行動する。
論文 参考訳(メタデータ) (2022-06-10T07:55:25Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - Elaborative Simplification: Content Addition and Explanation Generation
in Text Simplification [33.08519864889526]
テキスト単純化におけるコンテンツ追加に関する最初のデータ駆動型研究について述べる。
我々は、文脈的特異性のレンズを通して、エンティティ、アイデア、概念がどのように精巧化されているかを分析する。
本研究は, 作業の複雑さを概説し, 今後の課題について多くの興味深い方向性を示唆するものである。
論文 参考訳(メタデータ) (2020-10-20T05:06:23Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。