論文の概要: Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training
- arxiv url: http://arxiv.org/abs/2305.12908v1
- Date: Mon, 22 May 2023 10:41:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 16:40:15.563010
- Title: Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training
- Title(参考訳): ドイツのテキスト簡易化のための言語モデル:スタイル固有の事前学習による並列データ不足の克服
- Authors: Miriam Ansch\"utz, Joshua Oehms, Thomas Wimmer, Bart{\l}omiej
Jezierski, Georg Groh
- Abstract要約: データ不足を克服する2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automatic text simplification systems help to reduce textual information
barriers on the internet. However, for languages other than English, only few
parallel data to train these systems exists. We propose a two-step approach to
overcome this data scarcity issue. First, we fine-tuned language models on a
corpus of German Easy Language, a specific style of German. Then, we used these
models as decoders in a sequence-to-sequence simplification task. We show that
the language models adapt to the style characteristics of Easy Language and
output more accessible texts. Moreover, with the style-specific pre-training,
we reduced the number of trainable parameters in text simplification models.
Hence, less parallel data is sufficient for training. Our results indicate that
pre-training on unaligned data can reduce the required parallel data while
improving the performance on downstream tasks.
- Abstract(参考訳): 自動テキスト単純化システムは、インターネット上のテキスト情報バリアを減らすのに役立つ。
しかし、英語以外の言語では、これらのシステムを訓練する並列データはほとんど存在しない。
このデータ不足を克服するための2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
そして、これらのモデルをシーケンス列の単純化タスクのデコーダとして使用しました。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
さらに,スタイル固有の事前学習により,テキスト簡易化モデルの学習可能なパラメータ数を削減した。
したがって、少ない並列データがトレーニングに十分である。
その結果,非アライメントデータの事前トレーニングは,ダウンストリームタスクの性能を改善しつつ,必要な並列データを削減できることがわかった。
関連論文リスト
- German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Improving Neural Machine Translation by Bidirectional Training [85.64797317290349]
我々は、ニューラルネットワーク翻訳のためのシンプルで効果的な事前学習戦略である双方向トレーニング(BiT)を提案する。
具体的には、初期モデルのパラメータを双方向に更新し、正常にモデルを調整する。
実験の結果,BiTは8つの言語対上の15の翻訳タスクに対して,SOTAニューラルマシン翻訳性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2021-09-16T07:58:33Z) - Translate & Fill: Improving Zero-Shot Multilingual Semantic Parsing with
Synthetic Data [2.225882303328135]
多言語セマンティックパーシングタスクのための銀のトレーニングデータを生成するための新しいTranslate-and-Fill(TaF)手法を提案する。
3つの多言語意味解析データセットの実験結果は、TaFによるデータ拡張が類似システムと競合する精度に達することを示している。
論文 参考訳(メタデータ) (2021-09-09T14:51:11Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - Token-wise Curriculum Learning for Neural Machine Translation [94.93133801641707]
ニューラルネットワーク翻訳(NMT)への既存のカリキュラム学習アプローチでは、初期のトレーニング段階でトレーニングデータから十分なサンプルをサンプリングする必要がある。
簡便なサンプルを十分に生成する,新しいトークン型カリキュラム学習手法を提案する。
当社のアプローチは,5つの言語ペア,特に低リソース言語において,ベースラインを一貫して上回ることができる。
論文 参考訳(メタデータ) (2021-03-20T03:57:59Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - MUSS: Multilingual Unsupervised Sentence Simplification by Mining
Paraphrases [20.84836431084352]
ラベル付き単純化データを必要としない多言語無教師文簡略化システムであるMUSSを紹介する。
MUSSは、適切な単純化データではなく、文レベルのパラフレーズデータを使用して強力なモデルを訓練する、文単純化の新しいアプローチを使用している。
我々は、英語、フランス語、スペイン語の単純化ベンチマークに対する我々のアプローチを評価し、以前の最高の教師付き結果と密に一致または比較した。
論文 参考訳(メタデータ) (2020-05-01T12:54:30Z) - Semi-Supervised Text Simplification with Back-Translation and Asymmetric
Denoising Autoencoders [37.949101113934226]
テキスト単純化(TS)は、長い文を単純化した変種に言い換え、固有の意味を保ちながら表現する。
本研究では,TSタスクにおける大量の未ペアコーパスの活用方法について検討する。
本稿では,異なる複雑さを持つ文に対する非対称な記述法を提案する。
論文 参考訳(メタデータ) (2020-04-30T11:19:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。