論文の概要: German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
- arxiv url: http://arxiv.org/abs/2508.17973v1
- Date: Mon, 25 Aug 2025 12:40:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.778803
- Title: German4All - A Dataset and Model for Readability-Controlled Paraphrasing in German
- Title(参考訳): German4All - 可読性を持つパラフレーズのデータセットとモデル
- Authors: Miriam Anschütz, Thanh Mai Pham, Eslam Nasrallah, Maximilian Müller, Cristian-George Craciun, Georg Groh,
- Abstract要約: 我々は,アライメントされた可読性制御された段落レベルのパラフレーズの最初の大規模ドイツのデータセットである German4All を紹介する。
可読性レベルは5つあり、25,000以上のサンプルを含んでいる。
German4Allを用いて、ドイツ語のテキスト単純化における最先端のパフォーマンスを実現するオープンソースの可読性制御パラフレーズモデルを訓練する。
- 参考スコア(独自算出の注目度): 5.50777893297099
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ability to paraphrase texts across different complexity levels is essential for creating accessible texts that can be tailored toward diverse reader groups. Thus, we introduce German4All, the first large-scale German dataset of aligned readability-controlled, paragraph-level paraphrases. It spans five readability levels and comprises over 25,000 samples. The dataset is automatically synthesized using GPT-4 and rigorously evaluated through both human and LLM-based judgments. Using German4All, we train an open-source, readability-controlled paraphrasing model that achieves state-of-the-art performance in German text simplification, enabling more nuanced and reader-specific adaptations. We opensource both the dataset and the model to encourage further research on multi-level paraphrasing
- Abstract(参考訳): 様々な複雑さのレベルにまたがってテキストを言い換える能力は、多様な読者グループ向けにカスタマイズ可能な、アクセス可能なテキストを作成するのに不可欠である。
そこで,ドイツで最初の大規模データセットである German4All を紹介した。
可読性レベルは5つあり、25,000以上のサンプルを含んでいる。
データセットは、GPT-4を用いて自動的に合成され、人間とLLMに基づく判断によって厳格に評価される。
German4Allを用いて、我々は、よりニュアンスで読み手固有の適応を可能にする、ドイツ語のテキスト単純化における最先端のパフォーマンスを実現する、オープンソースの可読性制御パラフレーズモデルを訓練する。
マルチレベルパラフレーズのさらなる研究を促進するために,データセットとモデルの両方をオープンソース化した。
関連論文リスト
- Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。
また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - VTechAGP: An Academic-to-General-Audience Text Paraphrase Dataset and Benchmark Models [5.713983191152314]
VTechAGPは、最初の学術から一般のテキストパラフレーズデータセットである。
トレーニングでは,動的プロンプトのキーワードベクトルを学習するために,コントラッシブ・ジェネレーション・ロス関数を利用する。
推論には,意味レベルと構造レベルの両方で,群集サンプリングの復号化戦略を採用する。
論文 参考訳(メタデータ) (2024-11-07T16:06:00Z) - Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。
我々は人的・自動的な評価のためのプロトコルを開発した。
以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文 参考訳(メタデータ) (2024-04-11T13:11:21Z) - German Text Simplification: Finetuning Large Language Models with
Semi-Synthetic Data [0.7059555559002345]
本研究は,ドイツ語テキストの文書レベルの簡易化において,合成生成データを用いて生成モデルを訓練する手法である。
このデータに最大13億のパラメータを持つ大規模言語モデルを精査し、その性能を評価します。
論文 参考訳(メタデータ) (2024-02-16T13:28:44Z) - Pseudo-Labels Are All You Need [3.52359746858894]
我々は,テキスト複雑度DEチャレンジ2022に応募する。
目標は、レベルBのドイツ語学習者のドイツ語文の複雑さを予測することである。
擬似ラベルに基づくアプローチは印象的な結果を与えるが、特定のタスクの調整はほとんど必要としない。
論文 参考訳(メタデータ) (2022-08-19T09:52:41Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - Models and Datasets for Cross-Lingual Summarisation [78.56238251185214]
対象言語における多文要約に関連付けられたソース言語において,長い文書を含む言語間要約コーパスを提案する。
コーパスは、チェコ語、英語、フランス語、ドイツ語の4つの言語について、12の言語対と指示をカバーしている。
言語対応のウィキペディアのタイトルから、主節と記事の本体を組み合わせることで、ウィキペディアから言語横断的な文書要約インスタンスを導出する。
論文 参考訳(メタデータ) (2022-02-19T11:55:40Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。