Fugu-MT 論文翻訳(概要): Multilingual Language Model Pretraining using Machine-translated Data

論文の概要: Multilingual Language Model Pretraining using Machine-translated Data

arxiv url: http://arxiv.org/abs/2502.13252v1
Date: Tue, 18 Feb 2025 19:27:53 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-20 20:12:09.769031
Title: Multilingual Language Model Pretraining using Machine-translated Data
Title（参考訳）: 機械翻訳データを用いた多言語言語モデルの事前学習
Authors: Jiayi Wang, Yao Lu, Maurice Weber, Max Ryabinin, David Adelani, Yihong Chen, Raphael Tang, Pontus Stenetorp,
Abstract要約: 高品質なWebデータセットであるFineWeb-Eduを9言語に翻訳する。 TransWebLLMは、クローズドデータを用いて訓練された最先端の多言語モデルに適合し、性能が向上することを示す。
参考スコア（独自算出の注目度）: 33.373858866989536
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: High-resource languages such as English, enables the pretraining of high-quality large language models (LLMs). The same can not be said for most other languages as LLMs still underperform for non-English languages, likely due to a gap in the quality and diversity of the available multilingual pretraining corpora. In this work, we find that machine-translated texts from a single high-quality source language can contribute significantly to the pretraining quality of multilingual LLMs. We translate FineWeb-Edu, a high-quality English web dataset, into nine languages, resulting in a 1.7-trillion-token dataset, which we call TransWebEdu and pretrain a 1.3B-parameter model, TransWebLLM, from scratch on this dataset. Across nine non-English reasoning tasks, we show that TransWebLLM matches or outperforms state-of-the-art multilingual models trained using closed data, such as Llama3.2, Qwen2.5, and Gemma, despite using an order of magnitude less data. We demonstrate that adding less than 5% of TransWebEdu as domain-specific pretraining data sets a new state-of-the-art in Arabic, Italian, Indonesian, Swahili, and Welsh understanding and commonsense reasoning tasks. To promote reproducibility, we release our corpus, models, and training pipeline under Open Source Initiative-approved licenses.
Abstract（参考訳）: 英語のような高リソース言語は、高品質な大規模言語モデル(LLM)の事前訓練を可能にする。 LLMは英語以外の言語ではまだ性能が劣っているため、他の言語でも同じことは言えないが、おそらくは、利用可能な多言語事前学習コーパスの品質と多様性の欠如によるものである。本研究では,1つの高品質なソース言語からの機械翻訳テキストが,多言語LLMの事前学習品質に大きく貢献することを示す。高品質なWebデータセットであるFineWeb-Eduを9つの言語に翻訳し、その結果、TransWebEduと呼ばれる1.7トリllion-tokenデータセットを生成し、このデータセットのスクラッチから1.3BパラメータモデルであるTransWebLLMを事前トレーニングします。 9つの非英語の推論タスクの中で、TransWebLLMは、桁違いに少ないデータであるにもかかわらず、Llama3.2、Qwen2.5、Gemmaといったクローズドデータを用いて訓練された最先端の多言語モデルにマッチするか、性能を向上することを示す。ドメイン固有の事前学習データとしてTransWebEduの5%未満を追加することで、アラビア語、イタリア語、インドネシア語、スワヒリ語、ウェールズ語の理解と常識的推論タスクにおいて、新たな最先端技術が確立されることを示す。再現性を促進するため、オープンソースイニシアティブが承認したライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースします。

関連論文リスト

XDoGE: Multilingual Data Reweighting to Enhance Language Inclusivity in LLMs [41.71907186207218]
現在の大規模言語モデル(LLM)は、主にいくつかの支配的な言語から大量のテキストデータに基づいて訓練されている。ドメイン依存型DoGEアルゴリズムにおいて,小さなプロキシモデルをトレーニングすることにより,言語分布の最適化を提案する。次に、データを再スケールし、確立された言語重み付けで、スクラッチから、または連続的な事前学習フェーズ内でフルサイズのモデルをトレーニングします。
論文参考訳（メタデータ） (2025-12-11T11:22:53Z)
Seed-X: Building Strong Multilingual Translation LLM with 7B Parameters [53.59868121093848]
7Bパラメータサイズを持つオープンソースの言語モデル(LLM)のファミリーであるSeed-Xを紹介する。ベースモデルは、28言語にわたるモノリンガルコンテンツとバイリンガルコンテンツの両方を含む、多種多様な高品質データセットで事前訓練されている。その後、インストラクションモデルは、Chain-of-Thought(CoT)推論によって翻訳され、強化学習(RL)によりさらに強化され、多様な言語対をまたいだより良い一般化が達成される。
論文参考訳（メタデータ） (2025-07-18T03:19:43Z)
Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文参考訳（メタデータ） (2024-10-31T14:09:50Z)
PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文参考訳（メタデータ） (2023-07-12T09:00:37Z)
Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文参考訳（メタデータ） (2022-10-13T19:34:14Z)
Generalizing Multimodal Pre-training into Multilingual via Language Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-29T08:53:22Z)
A Few Thousand Translations Go a Long Way! Leveraging Pre-trained Models for African News Translation [25.05948665615943]
我々は16の言語をカバーする新しいアフリカのニュースコーパスを作成し、そのうち8つの言語は既存の評価データセットには含まれない。提案手法は,少量の高品質翻訳データに基づいて,事前訓練済みの大規模モデルを微調整することである。
論文参考訳（メタデータ） (2022-05-04T12:11:47Z)
Towards Making the Most of Multilingual Pretraining for Zero-Shot Neural Machine Translation [74.158365847236]
SixT++は、100のソース言語をサポートする強力な多言語NMTモデルであるが、たった6つのソース言語からの並列データセットで一度トレーニングされている。 CRISSとm2m-100は、それぞれ7.2と5.0BLEUの2つの強い多言語NMTシステムより大幅に優れていた。
論文参考訳（メタデータ） (2021-10-16T10:59:39Z)
UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文参考訳（メタデータ） (2020-12-31T11:37:28Z)
Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文参考訳（メタデータ） (2020-10-22T12:22:50Z)
Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。 WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文参考訳（メタデータ） (2020-10-21T17:01:23Z)
Multilingual Translation with Extensible Multilingual Pretraining and Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。多言語翻訳モデルは多言語微調整により作成可能であることを示す。事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文参考訳（メタデータ） (2020-08-02T05:36:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。