論文の概要: MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases
- arxiv url: http://arxiv.org/abs/2005.00352v2
- Date: Fri, 16 Apr 2021 15:08:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 22:51:19.328171
- Title: MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases
- Title(参考訳): MUSS:マイニングパラフレーズによる多言語教師なし文の簡略化
- Authors: Louis Martin, Angela Fan, \'Eric de la Clergerie, Antoine Bordes,
Beno\^it Sagot
- Abstract要約: ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
- 参考スコア(独自算出の注目度): 20.84836431084352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Progress in sentence simplification has been hindered by a lack of labeled
parallel simplification data, particularly in languages other than English. We
introduce MUSS, a Multilingual Unsupervised Sentence Simplification system that
does not require labeled simplification data. MUSS uses a novel approach to
sentence simplification that trains strong models using sentence-level
paraphrase data instead of proper simplification data. These models leverage
unsupervised pretraining and controllable generation mechanisms to flexibly
adjust attributes such as length and lexical complexity at inference time. We
further present a method to mine such paraphrase data in any language from
Common Crawl using semantic sentence embeddings, thus removing the need for
labeled data. We evaluate our approach on English, French, and Spanish
simplification benchmarks and closely match or outperform the previous best
supervised results, despite not using any labeled simplification data. We push
the state of the art further by incorporating labeled simplification data.
- Abstract(参考訳): 文の単純化の進歩は、特に英語以外の言語において、ラベル付き並列単純化データの欠如によって妨げられている。
ラベル付き簡素化データを必要としない多言語非教師なし文簡素化システムであるmussを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
これらのモデルは教師なし事前学習と制御可能な生成機構を利用して、推論時に長さや語彙の複雑さなどの属性を柔軟に調整する。
さらに,このようなパラフレーズデータを,意味文埋め込みを用いた共通クローラから抽出する手法を提案し,ラベル付きデータの必要性を解消した。
我々は、英語、フランス語、スペイン語の簡易化ベンチマークに対する我々のアプローチを評価し、ラベル付き単純化データを使用しないにもかかわらず、以前の最良の教師付き結果と密接に一致または上回っています。
ラベル付き単純化データを組み込むことで,技術の現状をさらに推し進める。
関連論文リスト
- Evaluating Document Simplification: On the Importance of Separately Assessing Simplicity and Meaning Preservation [9.618393813409266]
本稿では,文書レベルの簡易化評価に焦点をあてる。
我々は、意味の保存と単純化のために異なる指標を用いて既存のモデルを比較した。
我々は、単純さのために参照なし計量変種を導入し、モデルは、単純化または意味保存のどちらにも偏っていることを示す。
論文 参考訳(メタデータ) (2024-04-04T08:04:24Z) - A New Dataset and Empirical Study for Sentence Simplification in Chinese [50.0624778757462]
本稿では,中国語で文の単純化を評価するための新しいデータセットであるCSSを紹介する。
我々は、人間のアノテーションから手作業による単純化を収集し、英語と中国語の文の簡易化の違いを示すデータ解析を行う。
最後に,CSS上で評価することで,大言語モデルが高品質な中国語文の簡易化システムとして機能するかどうかを考察する。
論文 参考訳(メタデータ) (2023-06-07T06:47:34Z) - Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training [0.0]
データ不足を克服する2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
論文 参考訳(メタデータ) (2023-05-22T10:41:30Z) - SASS: Data and Methods for Subject Aware Sentence Simplification [0.0]
本稿では,主観認識文の単純化を行う学習モデルを対象としたデータセットを提供する。
また、抽象的な要約に使われるモデルアーキテクチャにインスパイアされたデータセット上でモデルをテストします。
論文 参考訳(メタデータ) (2023-03-26T00:02:25Z) - Exploiting Summarization Data to Help Text Simplification [50.0624778757462]
テキスト要約とテキスト単純化の類似性を解析し,要約データを利用して単純化を行った。
我々はこれらのペアをSum4Simp (S4S) と命名し,S4Sが高品質であることを示す人間評価を行った。
論文 参考訳(メタデータ) (2023-02-14T15:32:04Z) - Explain to me like I am five -- Sentence Simplification Using
Transformers [2.017876577978849]
文の簡易化は、文章の構造を本来の意味を維持しつつ読みやすくし、理解しやすくすることを目的としている。
これは、障害のある人、新しい言語学習者、リテラシーの低い人に役立つ。
従来の研究は、単純化のために外部言語データベースを使用するか、あるいは制御トークンを使用して文章の微調整を希望することで、この課題に対処することに注力してきた。
我々は、GPT-2とBERTモデルを組み合わせて実験を行い、メカニカルトルコデータセット上で最高のSARIスコア46.80を達成した。
論文 参考訳(メタデータ) (2022-12-08T22:57:18Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Semi-Supervised Models via Data Augmentationfor Classifying Interactive
Affective Responses [85.04362095899656]
本稿では、対話型感情応答を分類する半教師付きテキスト分類システムSMDA(Data Augmentation)を提案する。
ラベル付き文に対しては,ラベル分布の均一化と学習過程における教師付き損失の計算のためにデータ拡張を行った。
ラベルなし文に対しては,ラベルなし文に対する低エントロピー予測を擬似ラベルとして検討した。
論文 参考訳(メタデータ) (2020-04-23T05:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。