論文の概要: Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data
- arxiv url: http://arxiv.org/abs/2506.00469v1
- Date: Sat, 31 May 2025 08:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.645026
- Title: Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data
- Title(参考訳): バイリンガル翻訳データを用いた大規模言語モデルの多言語適応
- Authors: Shaoxiong Ji, Zihao Li, Jaakko Paavola, Indraneil Paul, Hengyu Luo, Jörg Tiedemann,
- Abstract要約: Llama3モデルのLlama3系列を500言語に大々的に多言語化するためのバイリンガル翻訳データの影響について検討した。
我々は2500以上の言語対のデータを含むMALAバイリンガル翻訳コーパスを構築した。
我々は4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートを開発した。
- 参考スコア(独自算出の注目度): 11.636375417636904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates a critical design decision in the practice of massively multilingual continual pre-training -- the inclusion of parallel data. Specifically, we study the impact of bilingual translation data for massively multilingual language adaptation of the Llama3 family of models to 500 languages. To this end, we construct the MaLA bilingual translation corpus, containing data from more than 2,500 language pairs. Subsequently, we develop the EMMA-500 Llama 3 suite of four massively multilingual models -- continually pre-trained from the Llama 3 family of base models extensively on diverse data mixes up to 671B tokens -- and explore the effect of continual pre-training with or without bilingual translation data. Comprehensive evaluation across 7 tasks and 12 benchmarks demonstrates that bilingual data tends to enhance language transfer and performance, particularly for low-resource languages. We open-source the MaLA corpus, EMMA-500 Llama 3 suite artefacts, code, and model generations.
- Abstract(参考訳): 本稿では,並列データを含む多言語連続事前学習の実践における重要な設計決定について検討する。
具体的には,Llama3モデルの500言語への大規模多言語適応に対するバイリンガル翻訳データの影響について検討する。
この目的のために、2500以上の言語対のデータを含むMALAバイリンガル翻訳コーパスを構築した。
次に,4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートの開発を行った。
7つのタスクと12のベンチマークの総合的な評価は、特に低リソース言語では、バイリンガルデータが言語転送とパフォーマンスを向上させる傾向があることを示している。
私たちは、MALAコーパス、EMMA-500 Llama 3スイートアーティファクト、コード、モデル世代をオープンソース化しました。
関連論文リスト
- From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [85.44082712798553]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。
我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文 参考訳(メタデータ) (2023-09-09T02:34:01Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。