論文の概要: Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining
- arxiv url: http://arxiv.org/abs/2603.24826v1
- Date: Wed, 25 Mar 2026 21:29:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.994803
- Title: Synthetic Rewriting as a Quality Multiplier: Evidence from Portuguese Continued Pretraining
- Title(参考訳): 品質乗算器としての合成書き換え:ポルトガルの継続事前訓練による証拠
- Authors: Thales Sales Almeida, Rodrigo Nogueira, Hélio Pedrini,
- Abstract要約: ポルトガル語の事前学習の文脈において、合成書き換えがソースデータ品質とどのように相互作用するかを考察する。
以上の結果から, 合成書き換えはデータキュレーションの代用ではなく, 品質乗算器として機能することが示唆された。
- 参考スコア(独自算出の注目度): 12.34636448485891
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation through document rewriting has emerged as a promising technique for improving language model pretraining, yet most studies focus on English and do not systematically control for the quality of the source data being rewritten. We present a controlled study of how synthetic rewriting interacts with source data quality in the context of Portuguese continued pretraining. Starting from ClassiCC-PT, a Portuguese corpus annotated with STEM and Educational quality scores, we construct two 10B-token subsets at different quality levels and rewrite each into four styles using a 7B instruction-tuned model, producing approximately 40B tokens of synthetic data per condition. We train two English-centric base models (1.1B and 7B parameters) on each condition and evaluate on PoETa V2, a comprehensive 44-task Portuguese benchmark. At the 7B scale, rewriting high-quality data yields a +3.4 NPM gain over the same data unmodified, while rewriting low-quality data provides only +0.5 NPM. At the 1.1B scale, this interaction is weaker, with unmodified low-quality data performing comparably to rewritten high-quality data. Our results demonstrate that synthetic rewriting acts primarily as a quality multiplier rather than a substitute for data curation, and that this effect is scale-dependent.
- Abstract(参考訳): 文書の書き直しによる合成データ生成は、言語モデルの事前学習を改善するための有望な手法として登場したが、ほとんどの研究は英語に焦点を当てており、書き直されたソースデータの品質を体系的に制御していない。
本稿では,ポルトガル語の事前学習を継続する文脈において,合成書き換えがソースデータ品質とどのように相互作用するかを制御した研究について述べる。
STEMと教育的品質スコアを付加したポルトガル語コーパスであるClassiCC-PTを皮切りに、異なる品質レベルで2つの10Bトークンのサブセットを構築し、それぞれを7B命令チューニングモデルを用いて4つのスタイルに書き換え、条件毎に約40Bの合成データトークンを生成する。
各条件で2つの英語中心ベースモデル(1.1Bと7Bパラメータ)をトレーニングし、総合的な44タスクのポルトガルのベンチマークであるPoETa V2で評価する。
7Bスケールでは、高品質なデータを書き換えると、同じデータに対して+3.4 NPMのゲインが得られるが、低品質のデータを書き直すと+0.5 NPMしか得られない。
1.1Bスケールでは、この相互作用はより弱く、修正されていない低品質のデータは高品質なデータを書き直すのに相容れない。
以上の結果から, 合成書き換えはデータキュレーションの代用ではなく, 品質乗算器として機能し, この効果はスケール依存であることが示唆された。
関連論文リスト
- ENTP: Enhancing Low-Quality SFT Data via Neural-Symbolic Text Purge-Mix [31.617919238979013]
Supervised Fine-Tuning (SFT) は、訓練済みの大規模言語モデル(LLM)を、高品質な命令応答ペアのサブセットでトレーニングすることで、ドメイン固有の命令に適応させる。
既存の品質優先のパラダイムは、廃棄された低品質データの貴重な信号を見落とし、不完全な品質フィルタに依存していることが多い。
我々は,低品質コーパスを記号的浄化と神経再建によって活性化するフレームワークであるENTP(Neural-symbolic Text Purge-Mix)を導入する。
論文 参考訳(メタデータ) (2025-10-27T09:39:22Z) - Alleviating Distribution Shift in Synthetic Data for Machine Translation Quality Estimation [55.73341401764367]
合成QEデータの分散シフトを緩和する新しいフレームワークであるDCSQEを紹介する。
DCSQEは、参照、すなわち翻訳監督信号を使用して、生成プロセスとアノテーションプロセスの両方をガイドする。
実験により、DCSQEは教師なし設定と教師なし設定の両方でSOTAベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-27T10:11:53Z) - DataMan: Data Manager for Pre-training Large Language Models [39.677609311769146]
既存の方法は限定的な直観に依存しており、包括的で明確なガイドラインを欠いている。
テキストパープレキシティ異常の原因から14の品質基準を導出し、ドメイン混合をサポートするために15の共通アプリケーションドメインを導入する。
実験では、DataManを使って30Bトークンを選択し、1.3B-パラメータ言語モデルをトレーニングし、我々のアプローチを検証する。
論文 参考訳(メタデータ) (2025-02-26T18:01:19Z) - Scaling Parameter-Constrained Language Models with Quality Data [32.35610029333478]
言語モデリングにおける法則のスケーリングは、伝統的にデータセットのサイズとモデルパラメータの関数としてトレーニング損失を定量化する。
我々は,従来のスケーリング法則の理解を,元の定式化におけるデータ品質の微視的なビューを提供することによって拡張する。
論文 参考訳(メタデータ) (2024-10-04T02:07:17Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。