論文の概要: Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection
- arxiv url: http://arxiv.org/abs/2604.20549v1
- Date: Wed, 22 Apr 2026 13:31:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.14273
- Title: Toward Cross-Lingual Quality Classifiers for Multilingual Pretraining Data Selection
- Title(参考訳): 多言語事前学習データ選択のための言語間品質分類器の実現に向けて
- Authors: Yassine Turki, Vinko Sabolčec, Bettina Messmer, Martin Jaggi,
- Abstract要約: 言語間の一貫性により、高リソース言語は低リソース言語のフィルタリングを補助することができる。
大規模多言語プールは、103Bトークンで訓練された1Bモデルのランク安定性と集約精度の両方において、単言語ベースラインよりも頻繁に優れている。
フランス語のような高リソース言語では、第3の四分法サンプリング(Q3)による決定境界の精製や、多言語信号を完全に活用するために保持率の調整が必要であることを示す。
- 参考スコア(独自算出の注目度): 38.530977168343966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As Large Language Models (LLMs) scale, data curation has shifted from maximizing volume to optimizing the signal-to-noise ratio by performing quality filtering. However, for many languages, native high quality data is insufficient to train robust quality classifiers. This work investigates the idea that quality markers in embedding space may show cross-lingual consistency, which would allow high-resource languages to subsidize the filtering of low-resource ones. We evaluate various filtering strategies, including cross-lingual transfer, third quartile sampling (Q3), and retention rate tuning. Our results demonstrate that massive multilingual pooling frequently outperforms monolingual baselines in both rank stability and aggregate accuracy for a 1B model trained on 103B tokens, delivering gains for high resource languages (1.2% increase in aggregate normalized accuracy for French) and matching or exceeding monolingual baselines for low-resource languages. However, we find that scale alone does not guarantee stability. Furthermore, for high-resource languages like French, we show that refining the decision boundary through third quartile sampling (Q3) or tuning the retention rate is necessary to fully leverage the multilingual signal.
- Abstract(参考訳): LLM(Large Language Models)がスケールするにつれて、データキュレーションはボリュームの最大化から、品質フィルタリングによって信号-雑音比の最適化へと移行した。
しかし、多くの言語において、ネイティブな高品質なデータは、堅牢な品質分類器を訓練するには不十分である。
本研究では、埋め込み空間における品質マーカーは言語間整合性を示す可能性があり、これは高リソース言語が低リソース言語のフィルタリングを補助することを意味する。
我々は,言語間移動,第3次四分法サンプリング(Q3),保持率調整など,さまざまなフィルタリング手法を評価する。
その結果,103Bトークン上で訓練した1Bモデルでは,大規模多言語プールが単一言語ベースラインよりも高い性能を示し,高資源言語では1.2%,低リソース言語では一言語ベースラインとの整合性や超越性を実現していることがわかった。
しかし、スケールだけでは安定性は保証されない。
さらに, フランス語などの高リソース言語では, 多言語信号を完全に活用するには, 第3四分法サンプリング(Q3)による決定境界の精細化や保持率の調整が必要であることを示す。
関連論文リスト
- CM-Align: Consistency-based Multilingual Alignment for Large Language Models [84.19366314925593]
高品質な多言語嗜好データを構築するための一貫性に基づくデータ手法を提案する。
具体的には、一貫性のある英語参照選択と、言語間一貫性に基づく多言語嗜好データ構築の2つの部分を含む。
論文 参考訳(メタデータ) (2025-09-10T12:40:49Z) - Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models [52.22235443948351]
大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
論文 参考訳(メタデータ) (2025-05-28T11:06:54Z) - Cross-Lingual Retrieval Augmented Prompt for Low-Resource Languages [0.6117371161379209]
低リソース言語におけるゼロショット性能を改善するために,Retrieval Crosslingually Pipelinesによって拡張されたPromptsを提案する。
その結果,一方の言語間移動性能と高次言語と低次言語との類似性の間に有意な正の相関が認められた。
堅牢性分析は、PARCがより強力なMPLMでさらに強力な性能を達成する可能性を示唆している。
論文 参考訳(メタデータ) (2022-12-19T17:29:37Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Leveraging Monolingual Data with Self-Supervision for Multilingual
Neural Machine Translation [54.52971020087777]
モノリンガルデータを使用することで、マルチリンガルモデルにおける低リソース言語の翻訳品質が大幅に向上する。
自己監督は多言語モデルのゼロショット翻訳品質を改善する。
並列データやバックトランスレーションなしで、ro-en翻訳で最大33のBLEUを得る。
論文 参考訳(メタデータ) (2020-05-11T00:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。