Fugu-MT 論文翻訳(概要): Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

論文の概要: Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

arxiv url: http://arxiv.org/abs/2603.24826v1
Date: Wed, 25 Mar 2026 21:29:14 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-27 20:52:47.994803
Title: Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining
Title（参考訳）: 品質乗算器としての合成書き換え:ポルトガルの継続事前訓練による証拠
Authors: Thales Sales Almeida, Rodrigo Nogueira, Hélio Pedrini,
Abstract要約: ポルトガル語の事前学習の文脈において、合成書き換えがソースデータ品質とどのように相互作用するかを考察する。以上の結果から, 合成書き換えはデータキュレーションの代用ではなく, 品質乗算器として機能することが示唆された。
参考スコア（独自算出の注目度）: 12.34636448485891
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Synthetic data generation through document rewriting has emerged as a promising technique for improving language model pretraining, yet most studies focus on English and do not systematically control for the quality of the source data being rewritten. We present a controlled study of how synthetic rewriting interacts with source data quality in the context of Portuguese continued pretraining. Starting from ClassiCC-PT, a Portuguese corpus annotated with STEM and Educational quality scores, we construct two 10B-token subsets at different quality levels and rewrite each into four styles using a 7B instruction-tuned model, producing approximately 40B tokens of synthetic data per condition. We train two English-centric base models (1.1B and 7B parameters) on each condition and evaluate on PoETa V2, a comprehensive 44-task Portuguese benchmark. At the 7B scale, rewriting high-quality data yields a +3.4 NPM gain over the same data unmodified, while rewriting low-quality data provides only +0.5 NPM. At the 1.1B scale, this interaction is weaker, with unmodified low-quality data performing comparably to rewritten high-quality data. Our results demonstrate that synthetic rewriting acts primarily as a quality multiplier rather than a substitute for data curation, and that this effect is scale-dependent.
Abstract（参考訳）: 文書の書き直しによる合成データ生成は、言語モデルの事前学習を改善するための有望な手法として登場したが、ほとんどの研究は英語に焦点を当てており、書き直されたソースデータの品質を体系的に制御していない。本稿では,ポルトガル語の事前学習を継続する文脈において,合成書き換えがソースデータ品質とどのように相互作用するかを制御した研究について述べる。 STEMと教育的品質スコアを付加したポルトガル語コーパスであるClassiCC-PTを皮切りに、異なる品質レベルで2つの10Bトークンのサブセットを構築し、それぞれを7B命令チューニングモデルを用いて4つのスタイルに書き換え、条件毎に約40Bの合成データトークンを生成する。各条件で2つの英語中心ベースモデル(1.1Bと7Bパラメータ)をトレーニングし、総合的な44タスクのポルトガルのベンチマークであるPoETa V2で評価する。 7Bスケールでは、高品質なデータを書き換えると、同じデータに対して+3.4 NPMのゲインが得られるが、低品質のデータを書き直すと+0.5 NPMしか得られない。 1.1Bスケールでは、この相互作用はより弱く、修正されていない低品質のデータは高品質なデータを書き直すのに相容れない。以上の結果から, 合成書き換えはデータキュレーションの代用ではなく, 品質乗算器として機能し, この効果はスケール依存であることが示唆された。

論文の概要: Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining

関連論文リスト