論文の概要: DEPLAIN: A German Parallel Corpus with Intralingual Translations into
Plain Language for Sentence and Document Simplification
- arxiv url: http://arxiv.org/abs/2305.18939v1
- Date: Tue, 30 May 2023 11:07:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 16:52:04.413262
- Title: DEPLAIN: A German Parallel Corpus with Intralingual Translations into
Plain Language for Sentence and Document Simplification
- Title(参考訳): DEPLAIN: 平易な文文翻訳と文書単純化のための言語内翻訳機能を備えたドイツのパラレルコーパス
- Authors: Regina Stodden and Omar Momen and Laura Kallmeyer
- Abstract要約: そこで本論文では, パラレル, プロライティング, 手作業による手作業による簡易化のデータセットであるDeplainについて述べる。
Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。
コーパス、ドイツ語の適応したアライメント方法、ウェブ収穫機、そしてここで訓練されたモデルを利用可能にしています。
- 参考スコア(独自算出の注目度): 1.5223905439199599
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text simplification is an intralingual translation task in which documents,
or sentences of a complex source text are simplified for a target audience. The
success of automatic text simplification systems is highly dependent on the
quality of parallel data used for training and evaluation. To advance sentence
simplification and document simplification in German, this paper presents
DEplain, a new dataset of parallel, professionally written and manually aligned
simplifications in plain German ("plain DE" or in German: "Einfache Sprache").
DEplain consists of a news domain (approx. 500 document pairs, approx. 13k
sentence pairs) and a web-domain corpus (approx. 150 aligned documents, approx.
2k aligned sentence pairs). In addition, we are building a web harvester and
experimenting with automatic alignment methods to facilitate the integration of
non-aligned and to be published parallel documents. Using this approach, we are
dynamically increasing the web domain corpus, so it is currently extended to
approx. 750 document pairs and approx. 3.5k aligned sentence pairs. We show
that using DEplain to train a transformer-based seq2seq text simplification
model can achieve promising results. We make available the corpus, the adapted
alignment methods for German, the web harvester and the trained models here:
https://github.com/rstodden/DEPlain.
- Abstract(参考訳): テキストsimplificationは、複雑なソーステキストの文書や文を目的のオーディエンスに対して単純化する言語内翻訳タスクである。
自動テキスト簡略化システムの成功は、訓練と評価に使用される並列データの品質に大きく依存する。
文の単純化と文書の単純化をドイツ語で進めるために,本稿では,文の簡略化を専門的に記述し,手作業で整理した新しいデータセットであるdeplain("plain de"またはドイツ語で"einfache sprache")を提案する。
Deplainはニュースドメイン(約500のドキュメントペア、約13kの文ペア)とWebドメインコーパス(約150のドキュメント、約2kの文ペア)で構成されている。
さらに,Web コントリビュータを構築し,非整合性の統合と並列文書の公開を容易にする自動アライメント手法の実験を行っている。
このアプローチを用いることで、Webドメインのコーパスを動的に増加させています。
750の文書対と近似
3.5kの文対。
Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。
我々は、コーパス、ドイツ語の適合したアライメントメソッド、webハーベスター、およびトレーニングされたモデルをここで利用可能にしている。
関連論文リスト
- SentAlign: Accurate and Scalable Sentence Alignment [4.363828136730248]
SentAlignは、非常に大きな並列ドキュメントペアを扱うように設計された、正確な文アライメントツールである。
アライメントアルゴリズムは、数千の文からなるかなり大きな文書における全ての可能なアライメントパスを評価し、数万の文を含む文書のアライメントに分割・コンカレントアプローチを使用する。
論文 参考訳(メタデータ) (2023-11-15T14:15:41Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training [0.0]
データ不足を克服する2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
論文 参考訳(メタデータ) (2023-05-22T10:41:30Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - A New Aligned Simple German Corpus [2.7981463795578927]
単純ドイツ語のための文列単言語コーパスを新たに提案する。
自動文アライメント手法を用いてアライメントした複数の文書アライメントソースを含んでいる。
文のアライメントの質は、F1スコアで測定されたように、以前の作業を上回る。
論文 参考訳(メタデータ) (2022-09-02T15:14:04Z) - Klexikon: A German Dataset for Joint Summarization and Simplification [2.931632009516441]
我々は、ドイツ語ウィキペディアとドイツ語児童辞書「クレキシコン」に基づく共同テキスト簡素化と要約のための新しいデータセットを作成する。
我々は要約の側面を強調し、この資源が単純化にも適しているという統計的証拠を提供する。
論文 参考訳(メタデータ) (2022-01-18T18:50:43Z) - Document-Level Text Simplification: Dataset, Criteria and Baseline [75.58761130635824]
文書レベルのテキスト単純化の新しいタスクを定義し,検討する。
Wikipediaダンプに基づいて、我々はまずD-Wikipediaという大規模なデータセットを構築した。
本稿では,文書レベルの単純化作業に適したD-SARIと呼ばれる新しい自動評価指標を提案する。
論文 参考訳(メタデータ) (2021-10-11T08:15:31Z) - Neural CRF Model for Sentence Alignment in Text Simplification [31.62648025127563]
我々は、通常使われている2つのテキスト単純化コーパス、Newsela、Wikipediaから、手動で注釈付き文整列データセットを作成する。
実験により, 提案手法はF1の5点以上の単言語文アライメントタスクにおいて, これまでの作業よりも優れていたことがわかった。
データセットに基づいてトレーニングされたTransformerベースのseq2seqモデルは、自動評価と人的評価の両方において、テキストの簡略化のための新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2020-05-05T16:47:51Z) - ASSET: A Dataset for Tuning and Evaluation of Sentence Simplification
Models with Multiple Rewriting Transformations [97.27005783856285]
本稿では,英語で文の単純化を評価するための新しいデータセットであるASSETを紹介する。
ASSETの単純化は、タスクの他の標準評価データセットと比較して、単純さの特徴を捉えるのに優れていることを示す。
論文 参考訳(メタデータ) (2020-05-01T16:44:54Z) - Extractive Summarization as Text Matching [123.09816729675838]
本稿では,ニューラル抽出要約システムの構築方法に関するパラダイムシフトを作成する。
抽出した要約タスクを意味テキストマッチング問題として定式化する。
我々はCNN/DailyMailの最先端抽出結果を新しいレベル(ROUGE-1の44.41)に推し進めた。
論文 参考訳(メタデータ) (2020-04-19T08:27:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。