論文の概要: Explain to me like I am five -- Sentence Simplification Using
Transformers
- arxiv url: http://arxiv.org/abs/2212.04595v1
- Date: Thu, 8 Dec 2022 22:57:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 14:55:08.051631
- Title: Explain to me like I am five -- Sentence Simplification Using
Transformers
- Title(参考訳): 私は5歳のように説明します -- Transformerを使った文の単純化
- Authors: Aman Agarwal
- Abstract要約: 文の簡易化は、文章の構造を本来の意味を維持しつつ読みやすくし、理解しやすくすることを目的としている。
これは、障害のある人、新しい言語学習者、リテラシーの低い人に役立つ。
従来の研究は、単純化のために外部言語データベースを使用するか、あるいは制御トークンを使用して文章の微調整を希望することで、この課題に対処することに注力してきた。
我々は、GPT-2とBERTモデルを組み合わせて実験を行い、メカニカルトルコデータセット上で最高のSARIスコア46.80を達成した。
- 参考スコア(独自算出の注目度): 2.017876577978849
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Sentence simplification aims at making the structure of text easier to read
and understand while maintaining its original meaning. This can be helpful for
people with disabilities, new language learners, or those with low literacy.
Simplification often involves removing difficult words and rephrasing the
sentence. Previous research have focused on tackling this task by either using
external linguistic databases for simplification or by using control tokens for
desired fine-tuning of sentences. However, in this paper we purely use
pre-trained transformer models. We experiment with a combination of GPT-2 and
BERT models, achieving the best SARI score of 46.80 on the Mechanical Turk
dataset, which is significantly better than previous state-of-the-art results.
The code can be found at https://github.com/amanbasu/sentence-simplification.
- Abstract(参考訳): 文の簡易化は、文章の構造を本来の意味を維持しつつ読みやすくすることを目的としている。
これは、障害のある人、新しい言語学習者、リテラシーの低い人に役立つ。
単純化はしばしば難解な言葉を除去し、文を言い換える。
従来の研究は、単純化のために外部言語データベースを使用するか、あるいは制御トークンを使用して文章の微調整を希望することで、この課題に対処することに注力してきた。
しかし,本論文では,事前学習したトランスフォーマーモデルを用いる。
GPT-2 と BERT のモデルの組み合わせを実験し,機械トルクデータセット上で最高のSARIスコア 46.80 を達成した。
コードはhttps://github.com/amanbasu/sentence-simplificationにある。
関連論文リスト
- Simplifying Translations for Children: Iterative Simplification Considering Age of Acquisition with LLMs [19.023628411128406]
本稿では,翻訳における単語をAoA(High Age of Acquisitions)に置き換える手法を提案する。
その結果,提案手法は高AoA語を低AoA語に効果的に置き換えることを示した。
論文 参考訳(メタデータ) (2024-08-08T04:57:36Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Alleviating Over-smoothing for Unsupervised Sentence Representation [96.19497378628594]
本稿では,この問題を緩和するために,SSCL(Self-Contrastive Learning)というシンプルな手法を提案する。
提案手法は非常に単純で,様々な最先端モデルに拡張して,性能向上を図ることができる。
論文 参考訳(メタデータ) (2023-05-09T11:00:02Z) - Syntactic Complexity Identification, Measurement, and Reduction Through
Controlled Syntactic Simplification [0.0]
本稿では,複合文と複合文を簡易文の集合に分割・言い換える,古典的な構文的依存性に基づく手法を提案する。
また,文の構文的複雑さを同定し,測定するアルゴリズムも導入した。
この研究は、WSDM-2023 Conferenceにおいて、Learning with Knowledge Graphs (IWLKG) に関する国際ワークショップで受け入れられ、発表された。
論文 参考訳(メタデータ) (2023-04-16T13:13:58Z) - SimpLex: a lexical text simplification architecture [0.5156484100374059]
簡単な英文を生成するための新しい単純化アーキテクチャである textscSimpLex を提案する。
提案アーキテクチャでは、ワード埋め込み(Word2Vec)とパープレキシティ(perplexity)、文変換(BERT、RoBERTa、GPT2)、コサイン類似(cosine similarity)のいずれかを使用する。
このソリューションはユーザフレンドリーで使いやすいソフトウェアに組み込まれている。
論文 参考訳(メタデータ) (2023-04-14T08:52:31Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Three Sentences Are All You Need: Local Path Enhanced Document Relation
Extraction [54.95848026576076]
本稿では,文書レベルREのエビデンス文を選択するための,恥ずかしいほど単純だが効果的な方法を提案する。
私たちはhttps://github.com/AndrewZhe/Three-Sentences-Are-All-You-Need.comでコードを公開しました。
論文 参考訳(メタデータ) (2021-06-03T12:29:40Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases [20.84836431084352]
ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
論文 参考訳(メタデータ) (2020-05-01T12:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。