論文の概要: Exploring Automatic Text Simplification of German Narrative Documents
- arxiv url: http://arxiv.org/abs/2312.09907v1
- Date: Fri, 15 Dec 2023 16:10:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 15:06:35.078143
- Title: Exploring Automatic Text Simplification of German Narrative Documents
- Title(参考訳): ドイツ語ナラティブ文書の自動テキスト化の検討
- Authors: Thorben Schomacker, Tillmann D\"onicke, Marina Tropmann-Frick
- Abstract要約: 現在、テキストの単純化に利用可能なドイツのデータセットはわずかである。
本稿では,現代のNLG技術がドイツ語の物語テキストの単純化にどの程度応用できるかを考察する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we apply transformer-based Natural Language Generation (NLG)
techniques to the problem of text simplification. Currently, there are only a
few German datasets available for text simplification, even fewer with larger
and aligned documents, and not a single one with narrative texts. In this
paper, we explore to which degree modern NLG techniques can be applied to
German narrative text simplifications. We use Longformer attention and a
pre-trained mBART model. Our findings indicate that the existing approaches for
German are not able to solve the task properly. We conclude on a few directions
for future research to address this problem.
- Abstract(参考訳): 本稿では,トランスフォーマティブ型自然言語生成(nlg)手法を,テキスト簡易化問題に適用する。
現在、テキストの単純化に利用可能なドイツのデータセットはごくわずかであり、より大きく整列した文書は少なく、物語のテキストを持つ唯一のデータセットではない。
本稿では,現代のNLG技術がドイツ語の物語テキストの単純化にどの程度応用できるかを考察する。
我々はLongformerの注意と事前学習したmBARTモデルを用いる。
その結果,既存のドイツ語の手法では,その課題を適切に解決できないことがわかった。
我々はこの問題に対処するための今後の研究の方向性についてまとめる。
関連論文リスト
- German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - MCTS: A Multi-Reference Chinese Text Simplification Dataset [15.080614581458091]
漢文の簡体化に関する研究は、古くからほとんど行われていない。
マルチ参照中国語テキスト単純化データセットであるMCTSを紹介する。
いくつかの教師なし手法と高度な大規模言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2023-06-05T11:46:36Z) - Deliberate then Generate: Enhanced Prompting Framework for Text
Generation [70.10319005141888]
Deliberate then Generate (DTG) プロンプトフレームワークはエラー検出命令とエラーを含む可能性のある候補で構成されている。
我々は、要約、翻訳、対話など、7つのテキスト生成タスクにまたがる20以上のデータセットに関する広範な実験を行う。
本稿では,DTGが既存のプロンプト手法を一貫して上回り,複数のテキスト生成タスクにおける最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2023-05-31T13:23:04Z) - DEPLAIN: A German Parallel Corpus with Intralingual Translations into
Plain Language for Sentence and Document Simplification [1.5223905439199599]
そこで本論文では, パラレル, プロライティング, 手作業による手作業による簡易化のデータセットであるDeplainについて述べる。
Deplain を用いてトランスフォーマーベースの seq2seq テキスト簡易化モデルを訓練することで,有望な結果が得られることを示す。
コーパス、ドイツ語の適応したアライメント方法、ウェブ収穫機、そしてここで訓練されたモデルを利用可能にしています。
論文 参考訳(メタデータ) (2023-05-30T11:07:46Z) - Language Models for German Text Simplification: Overcoming Parallel Data
Scarcity through Style-specific Pre-training [0.0]
データ不足を克服する2段階のアプローチを提案する。
まず、ドイツ語の特定のスタイルであるドイツ語 Easy Language のコーパス上で、言語モデルを微調整した。
言語モデルが Easy Language のスタイル特性に適応し,よりアクセシブルなテキストを出力することを示す。
論文 参考訳(メタデータ) (2023-05-22T10:41:30Z) - Multilingual Simplification of Medical Texts [49.469685530201716]
4つの言語で医療領域のための文章整列型多言語テキスト単純化データセットであるMultiCochraneを紹介する。
これらの言語にまたがる微調整およびゼロショットモデルの評価を行い,人間による評価と分析を行った。
モデルは、実行可能な単純化されたテキストを生成することができるが、このデータセットが扱う可能性のある、卓越した課題を特定する。
論文 参考訳(メタデータ) (2023-05-21T18:25:07Z) - Teaching the Pre-trained Model to Generate Simple Texts for Text
Simplification [59.625179404482594]
トレーニング前の段階では、ランダムなマスキングテキストが通常のテキストに分散しているため、モデルは単純なテキストを生成する能力を得ることができない。
簡単なテキストを生成するための事前学習モデルを学習するための,新たな事前学習戦略を提案する。
論文 参考訳(メタデータ) (2023-05-21T14:03:49Z) - Event Transition Planning for Open-ended Text Generation [55.729259805477376]
オープンエンドテキスト生成タスクは、事前コンテキストに制限されたコヒーレントな継続を生成するためにモデルを必要とする。
オープンエンドテキスト生成におけるイベントを明示的にアレンジする新しい2段階手法を提案する。
我々のアプローチは、特別に訓練された粗大なアルゴリズムとして理解することができる。
論文 参考訳(メタデータ) (2022-04-20T13:37:51Z) - Fine-tuning GPT-3 for Russian Text Summarization [77.34726150561087]
本稿では,テキストを要約するruGPT3(ruGPT3)機能について紹介し,それに対応する人文要約を用いてロシア語ニュースのコーパスを微調整する。
得られたテキストを一連のメトリクスで評価し、アーキテクチャや損失関数に付加的な変更を加えることなく、我々のソリューションが最先端のモデルの性能を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-08-07T19:01:40Z) - Enabling Language Models to Fill in the Blanks [81.59381915581892]
文書中の任意の位置にあるテキストの欠落を予測するタスクである,テキストを埋め込むためのシンプルなアプローチを提案する。
我々は、人工的にマスキングされたテキストと隠蔽されたテキストの連結を含むシーケンスに基づいて、オフザシェルフ言語モデル(またはファインチューン)を訓練する。
言語モデリングにより,この手法により,3つの分野(短編,科学的な要約,歌詞)において,LMが文全体を効果的に埋め込むことができることを示す。
論文 参考訳(メタデータ) (2020-05-11T18:00:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。