論文の概要: SimpLex: a lexical text simplification architecture
- arxiv url: http://arxiv.org/abs/2304.07002v1
- Date: Fri, 14 Apr 2023 08:52:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-17 14:16:06.862982
- Title: SimpLex: a lexical text simplification architecture
- Title(参考訳): SimpLex: 語彙テキストの単純化アーキテクチャ
- Authors: Ciprian-Octavian Truic\u{a}, Andrei-Ionut Stan, Elena-Simona Apostol
- Abstract要約: 簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
- 参考スコア(独自算出の注目度): 0.5156484100374059
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text simplification (TS) is the process of generating easy-to-understand
sentences from a given sentence or piece of text. The aim of TS is to reduce
both the lexical (which refers to vocabulary complexity and meaning) and
syntactic (which refers to the sentence structure) complexity of a given text
or sentence without the loss of meaning or nuance. In this paper, we present
\textsc{SimpLex}, a novel simplification architecture for generating simplified
English sentences. To generate a simplified sentence, the proposed architecture
uses either word embeddings (i.e., Word2Vec) and perplexity, or sentence
transformers (i.e., BERT, RoBERTa, and GPT2) and cosine similarity. The
solution is incorporated into a user-friendly and simple-to-use software. We
evaluate our system using two metrics, i.e., SARI, and Perplexity Decrease.
Experimentally, we observe that the transformer models outperform the other
models in terms of the SARI score. However, in terms of Perplexity, the
Word-Embeddings-based models achieve the biggest decrease. Thus, the main
contributions of this paper are: (1) We propose a new Word Embedding and
Transformer based algorithm for text simplification; (2) We design
\textsc{SimpLex} -- a modular novel text simplification system -- that can
provide a baseline for further research; and (3) We perform an in-depth
analysis of our solution and compare our results with two state-of-the-art
models, i.e., LightLS [19] and NTS-w2v [44]. We also make the code publicly
available online.
- Abstract(参考訳): text simplification (ts) は、与えられた文やテキストから理解しやすい文を生成するプロセスである。
tsの目的は、意味やニュアンスを失うことなく、与えられたテキストや文の語彙的(語彙の複雑さと意味)と構文的複雑さ(文構造を意味する)の両方を減らすことである。
本稿では,単純化された英語文を生成するための新しい単純化アーキテクチャである \textsc{simplex} を提案する。
簡単な文を生成するために、提案アーキテクチャでは単語埋め込み(Word2Vec)とパープレキシティ、文変換器(BERT, RoBERTa, GPT2)とコサイン類似性を利用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
我々は,SARIとPerplexity Decreaseの2つの指標を用いてシステムを評価する。
実験により, 変圧器モデルはSARIスコアにおいて他のモデルよりも優れていた。
しかし、パープレキシティの面では、単語埋め込みベースのモデルが最も減少する。
そこで本研究では,(1)テキスト簡易化のための新しい単語埋め込みおよびトランスフォーマーアルゴリズムを提案し,(2)さらなる研究のためのベースラインを提供するモジュール型新規テキスト簡易化システムである \textsc{simplex} を設計し,(3)ソリューションの詳細な分析を行い,その結果をlightls [19] と nts-w2v [44] という2つの最先端モデルと比較した。
コードをオンラインで公開しています。
関連論文リスト
- Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Lexical Simplification using multi level and modular approach [1.9559144041082446]
本稿では、我々のチーム「teamPN」による英語サブタスクの作業について説明する。
我々は,現代のトランスフォーマーモデルと従来のNLP手法を組み合わせたモジュールパイプラインを構築した。
論文 参考訳(メタデータ) (2023-02-03T15:57:54Z) - Text Revision by On-the-Fly Representation Optimization [76.11035270753757]
現在の最先端手法は、これらのタスクをシーケンスからシーケンスまでの学習問題として定式化している。
並列データを必要としないテキストリビジョンのための反復的なインプレース編集手法を提案する。
テキストの単純化に関する最先端の教師付き手法よりも、競争力があり、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2022-04-15T07:38:08Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - How much do language models copy from their training data? Evaluating
linguistic novelty in text generation using RAVEN [63.79300884115027]
現在の言語モデルは高品質なテキストを生成することができる。
彼らは、これまで見たテキストを単にコピーしているか、それとも一般化可能な言語的抽象化を学んだのか?
本稿では、生成したテキストの新規性を評価するための分析スイートであるRAVENを紹介する。
論文 参考訳(メタデータ) (2021-11-18T04:07:09Z) - Text Simplification for Comprehension-based Question-Answering [7.144235435987265]
広く使われているSQuADデータセットの簡易バージョンであるSimple-SQuADをリリースする。
新たに作成したコーパスをベンチマークし,SQuADに基づく質問応答課題における単純化プロセスの効果を検討するためのアブレーション研究を行った。
論文 参考訳(メタデータ) (2021-09-28T18:48:00Z) - Enriching Transformers with Structured Tensor-Product Representations
for Abstractive Summarization [131.23966358405767]
抽象的な要約のタスクに対して,明示的に構成された製品表現(TPR)をTP-TRANSFORMERに適用する。
モデルの主な特徴は、トークンごとに2つの別々の表現を符号化することで導入する構造バイアスである。
本稿では,TP-TRANSFORMER が Transformer と TP-TRANSFORMER より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-02T17:32:33Z) - Explainable Prediction of Text Complexity: The Missing Preliminaries for
Text Simplification [13.447565774887215]
テキストの単純化により、アクセシビリティーのためにプロのコンテンツが複雑になる。
入力テキストの簡易版を直接生成するために、エンドツーエンドのニューラルネットワークモデルが広く採用されている。
テキストの単純化をタスクのコンパクトなパイプラインに分解することで、プロセスの透明性と説明可能性を確保することができることを示す。
論文 参考訳(メタデータ) (2020-07-31T03:33:37Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。