論文の概要: Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
- arxiv url: http://arxiv.org/abs/2505.22232v2
- Date: Sat, 31 May 2025 15:28:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 13:48:30.033968
- Title: Judging Quality Across Languages: A Multilingual Approach to Pretraining Data Filtering with Language Models
- Title(参考訳): 言語間の品質判断:言語モデルによるデータフィルタリングの事前学習のための多言語的アプローチ
- Authors: Mehdi Ali, Manuel Brack, Max Lübbering, Elias Wendt, Abbas Goher Khan, Richard Rutmann, Alex Jude, Maurice Kraus, Alexander Arno Weber, David Kaczér, Florian Mai, Lucie Flek, Rafet Sifa, Nicolas Flores-Herr, Joachim Köhler, Patrick Schramowski, Michael Fromm, Kristian Kersting,
- Abstract要約: 大規模言語モデル(LLM)を効果的に事前学習するためには,高品質な多言語学習データが不可欠である
本稿では,多言語多言語データを大規模に効率的にキュレートする体系的アプローチであるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
- 参考スコア(独自算出の注目度): 52.22235443948351
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-quality multilingual training data is essential for effectively pretraining large language models (LLMs). Yet, the availability of suitable open-source multilingual datasets remains limited. Existing state-of-the-art datasets mostly rely on heuristic filtering methods, restricting both their cross-lingual transferability and scalability. Here, we introduce JQL, a systematic approach that efficiently curates diverse and high-quality multilingual data at scale while significantly reducing computational demands. JQL distills LLMs' annotation capabilities into lightweight annotators based on pretrained multilingual embeddings. These models exhibit robust multilingual and cross-lingual performance, even for languages and scripts unseen during training. Evaluated empirically across 35 languages, the resulting annotation pipeline substantially outperforms current heuristic filtering methods like Fineweb2. JQL notably enhances downstream model training quality and increases data retention rates. Our research provides practical insights and valuable resources for multilingual data curation, raising the standards of multilingual dataset development.
- Abstract(参考訳): 大規模言語モデル(LLM)を効果的に事前学習するには,高品質な多言語学習データが不可欠である。
しかし、適切なオープンソースの多言語データセットが利用可能であることは、依然として限られている。
既存の最先端データセットは主にヒューリスティックなフィルタリング手法に依存しており、言語間の転送可能性とスケーラビリティの両方を制限している。
本稿では,多言語多言語データを大規模に効率的に計算し,計算要求を大幅に低減する体系的手法であるJQLを紹介する。
JQLは、LLMのアノテーション機能を、事前トレーニングされた多言語埋め込みに基づいて軽量アノテータに蒸留する。
これらのモデルは、トレーニング中に見つからない言語やスクリプトであっても、堅牢な多言語と多言語のパフォーマンスを示す。
35言語で実証的に評価され、結果として得られるアノテーションパイプラインは、Fineweb2のような現在のヒューリスティックなフィルタリング手法を大幅に上回っている。
JQLは特に、下流モデルのトレーニング品質を高め、データの保持率を高める。
我々の研究は、多言語データキュレーションのための実践的な洞察と貴重なリソースを提供し、多言語データセット開発標準を高くする。
関連論文リスト
- Few-Shot Multilingual Open-Domain QA from 5 Examples [44.04243892727856]
我々は,大規模言語モデル(LLM)から大規模多言語データを合成するためのemphfew-shot学習手法を提案する。
提案手法はWikiDataを用いた大規模自己教師付き事前学習から始まり,LLMを数発の監視で生成した高品質な合成多言語データを訓練する。
最終的なモデルである textscFsModQA は、MLODQA における既存の少数ショットベースラインと教師付きベースラインと、言語横断とモノリンガル検索を著しく上回る。
論文 参考訳(メタデータ) (2025-02-27T03:24:57Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Mitigating Language-Level Performance Disparity in mPLMs via Teacher Language Selection and Cross-lingual Self-Distillation [25.850573463743352]
大規模多言語事前訓練言語モデル(mPLMs)は、言語横断タスクにおいて優れた性能を発揮する。
しかし、mPLM内では異なる言語にまたがって大きな性能格差が存在する。
我々は ALSACE を導入し,優れた言語から学んだ知識を活用して,mPLM の低性能言語を誘導する。
論文 参考訳(メタデータ) (2024-04-12T14:19:16Z) - ColBERT-XM: A Modular Multi-Vector Representation Model for Zero-Shot
Multilingual Information Retrieval [10.664434993386523]
現在のアプローチは、非英語言語における高品質なラベル付きデータの欠如を回避している。
本稿では,単一の高リソース言語のリッチデータから学習するモジュール型高密度検索モデルを提案する。
論文 参考訳(メタデータ) (2024-02-23T02:21:24Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Improving Cross-lingual Information Retrieval on Low-Resource Languages
via Optimal Transport Distillation [21.057178077747754]
本稿では,低リソースな言語間情報検索のためのOPTICAL: Optimal Transport 蒸留法を提案する。
クエリドキュメントマッチングの知識から言語間知識を分離することにより、OPTICALは蒸留訓練のためのbitextデータのみを必要とする。
実験結果から,OPTICALは最小限のトレーニングデータにより,低リソース言語上での強いベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-01-29T22:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。