Fugu-MT 論文翻訳(概要): Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection

論文の概要: Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection

arxiv url: http://arxiv.org/abs/2604.20549v1
Date: Wed, 22 Apr 2026 13:31:28 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-23 15:36:11.14273
Title: Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection
Title（参考訳）: 多言語事前学習データ選択のための言語間品質分類器の実現に向けて
Authors: Yassine Turki, Vinko Sabolčec, Bettina Messmer, Martin Jaggi,
Abstract要約: 言語間の一貫性により、高リソース言語は低リソース言語のフィルタリングを補助することができる。大規模多言語プールは、103Bトークンで訓練された1Bモデルのランク安定性と集約精度の両方において、単言語ベースラインよりも頻繁に優れている。フランス語のような高リソース言語では、第3の四分法サンプリング(Q3)による決定境界の精製や、多言語信号を完全に活用するために保持率の調整が必要であることを示す。
参考スコア（独自算出の注目度）: 38.530977168343966
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As Large Language Models (LLMs) scale, data curation has shifted from maximizing volume to optimizing the signal-to-noise ratio by performing quality filtering. However, for many languages, native high quality data is insufficient to train robust quality classifiers. This work investigates the idea that quality markers in embedding space may show cross-lingual consistency, which would allow high-resource languages to subsidize the filtering of low-resource ones. We evaluate various filtering strategies, including cross-lingual transfer, third quartile sampling (Q3), and retention rate tuning. Our results demonstrate that massive multilingual pooling frequently outperforms monolingual baselines in both rank stability and aggregate accuracy for a 1B model trained on 103B tokens, delivering gains for high resource languages (1.2% increase in aggregate normalized accuracy for French) and matching or exceeding monolingual baselines for low-resource languages. However, we find that scale alone does not guarantee stability. Furthermore, for high-resource languages like French, we show that refining the decision boundary through third quartile sampling (Q3) or tuning the retention rate is necessary to fully leverage the multilingual signal.
Abstract（参考訳）: LLM(Large Language Models)がスケールするにつれて、データキュレーションはボリュームの最大化から、品質フィルタリングによって信号-雑音比の最適化へと移行した。しかし、多くの言語において、ネイティブな高品質なデータは、堅牢な品質分類器を訓練するには不十分である。本研究では、埋め込み空間における品質マーカーは言語間整合性を示す可能性があり、これは高リソース言語が低リソース言語のフィルタリングを補助することを意味する。我々は,言語間移動,第3次四分法サンプリング(Q3),保持率調整など,さまざまなフィルタリング手法を評価する。その結果,103Bトークン上で訓練した1Bモデルでは,大規模多言語プールが単一言語ベースラインよりも高い性能を示し,高資源言語では1.2%,低リソース言語では一言語ベースラインとの整合性や超越性を実現していることがわかった。しかし、スケールだけでは安定性は保証されない。さらに, フランス語などの高リソース言語では, 多言語信号を完全に活用するには, 第3四分法サンプリング(Q3)による決定境界の精細化や保持率の調整が必要であることを示す。

論文の概要: Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection

関連論文リスト