論文の概要: Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
- arxiv url: http://arxiv.org/abs/2502.10361v1
- Date: Fri, 14 Feb 2025 18:42:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:47:38.686792
- Title: Enhancing Multilingual LLM Pretraining with Model-Based Data Selection
- Title(参考訳): モデルに基づくデータ選択による多言語LLM事前学習の強化
- Authors: Bettina Messmer, Vinko Sabolčec, Martin Jaggi,
- Abstract要約: 本稿では,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチは透明性、単純さ、効率性を重視しています。
フレームワークを20言語に拡張し、洗練された事前トレーニングデータセットをリリースします。
- 参考スコア(独自算出の注目度): 33.68104398807581
- License:
- Abstract: Dataset curation has become a basis for strong large language model (LLM) performance. While various rule-based filtering heuristics exist for English and multilingual datasets, model-based filtering techniques have primarily focused on English. To address the disparity stemming from limited research on non-English languages, we propose a model-based filtering framework for multilingual datasets that aims to identify a diverse set of structured and knowledge-rich samples. Our approach emphasizes transparency, simplicity, and efficiency, leveraging Transformer- and FastText-based classifiers to ensure the broad accessibility of our technique and data. We conduct comprehensive ablation studies on the FineWeb-2 web crawl dataset across diverse language families, scripts, and resource availability to demonstrate the effectiveness of our method. Training a 1B-parameter Llama model for 70B and 119B tokens, our approach can match the baseline MMLU score with as little as 15% of the training tokens, while also improving across other benchmarks. These findings provide strong evidence for the generalizability of our approach to other languages. As a result, we extend our framework to 20 languages for which we release the refined pretraining datasets.
- Abstract(参考訳): データセットのキュレーションは、強大言語モデル(LLM)のパフォーマンスの基盤となっている。
ルールベースのフィルタリングヒューリスティックは英語と多言語データセットに対して存在するが、モデルベースのフィルタリング技術は主に英語に焦点を当てている。
非英語言語に関する限られた研究から生じる格差に対処するため,多言語データセットを対象としたモデルベースフィルタリングフレームワークを提案する。
当社のアプローチでは,TransformerとFastTextベースの分類器を活用して,透過性,簡易性,効率性を重視している。
本手法の有効性を実証するために,FinWeb-2 Web クローリングデータセットを多種多様な言語ファミリ,スクリプト,リソース可利用性に対して包括的アブレーション研究を行った。
70Bと119Bのトークンに対して1BパラメータのLlamaモデルをトレーニングすることで,ベースラインのMMLUスコアとトレーニングトークンの15%とを一致させることができる。
これらの結果は、我々の他言語へのアプローチの一般化可能性の強い証拠となる。
その結果、フレームワークを20言語に拡張し、洗練された事前学習データセットをリリースしました。
関連論文リスト
- GeMQuAD : Generating Multilingual Question Answering Datasets from Large Language Models using Few Shot Learning [4.8838210812204235]
本稿では,対象言語に1つの例があるICLを用いて生成されたデータセットに対して,半教師付き学習手法であるGeMQuADを提案する。
我々は、特に低リソースの多言語設定において、モデル性能を向上させるために、高品質なデータを反復的に識別する。
我々のフレームワークは、ヒンディー語で0.22/1.68 F1/EMポイント、MLQAデータセットでスペイン語で0.82/1.37 F1/EMポイントで機械翻訳拡張モデルより優れています。
論文 参考訳(メタデータ) (2024-04-14T06:55:42Z) - UltraLink: An Open-Source Knowledge-Enhanced Multilingual Supervised
Fine-tuning Dataset [69.33424532827608]
オープンソースの大規模言語モデル(LLM)は、様々な分野において大きな強みを持っている。
本研究では,オープンソースの多言語教師付き微調整データセットを構築する。
結果として得られたUltraLinkデータセットは、5つの言語にわたる約100万のサンプルで構成されている。
論文 参考訳(メタデータ) (2024-02-07T05:05:53Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Bridging the Language Gap: Dynamic Learning Strategies for Improving Multilingual Performance in LLMs [15.911445732909849]
大規模言語モデル(LLM)は様々なドメインに革命をもたらしたが、それでも非ラテン語スクリプトや低リソース言語に苦戦している。
本稿では,実行時にクエリ毎のプロンプト戦略,埋め込みモデル,LLMを最適化する,新しい動的学習手法を提案する。
提案手法では,事前学習モデルに比べて10~15%の言語性能向上と4倍のゲインを達成できた。
論文 参考訳(メタデータ) (2023-05-28T14:48:38Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Multilingual and cross-lingual document classification: A meta-learning
approach [24.66829920826166]
本稿では,文書分類におけるメタラーニング手法を提案する。
提案手法の有効性は2つの設定で示される:少数ショット,未確認言語への言語間適応,多言語共同訓練である。
論文 参考訳(メタデータ) (2021-01-27T10:22:56Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。