論文の概要: Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data
- arxiv url: http://arxiv.org/abs/2506.00469v1
- Date: Sat, 31 May 2025 08:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.645026
- Title: Massively Multilingual Adaptation of Large Language Models Using Bilingual Translation Data
- Title(参考訳): バイリンガル翻訳データを用いた大規模言語モデルの多言語適応
- Authors: Shaoxiong Ji, Zihao Li, Jaakko Paavola, Indraneil Paul, Hengyu Luo, Jörg Tiedemann,
- Abstract要約: Llama3モデルのLlama3系列を500言語に大々的に多言語化するためのバイリンガル翻訳データの影響について検討した。
我々は2500以上の言語対のデータを含むMALAバイリンガル翻訳コーパスを構築した。
我々は4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートを開発した。
- 参考スコア(独自算出の注目度): 11.636375417636904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates a critical design decision in the practice of massively multilingual continual pre-training -- the inclusion of parallel data. Specifically, we study the impact of bilingual translation data for massively multilingual language adaptation of the Llama3 family of models to 500 languages. To this end, we construct the MaLA bilingual translation corpus, containing data from more than 2,500 language pairs. Subsequently, we develop the EMMA-500 Llama 3 suite of four massively multilingual models -- continually pre-trained from the Llama 3 family of base models extensively on diverse data mixes up to 671B tokens -- and explore the effect of continual pre-training with or without bilingual translation data. Comprehensive evaluation across 7 tasks and 12 benchmarks demonstrates that bilingual data tends to enhance language transfer and performance, particularly for low-resource languages. We open-source the MaLA corpus, EMMA-500 Llama 3 suite artefacts, code, and model generations.
- Abstract(参考訳): 本稿では,並列データを含む多言語連続事前学習の実践における重要な設計決定について検討する。
具体的には,Llama3モデルの500言語への大規模多言語適応に対するバイリンガル翻訳データの影響について検討する。
この目的のために、2500以上の言語対のデータを含むMALAバイリンガル翻訳コーパスを構築した。
次に,4つの大規模多言語モデルからなるEMMA-500 Llama 3スイートの開発を行った。
7つのタスクと12のベンチマークの総合的な評価は、特に低リソース言語では、バイリンガルデータが言語転送とパフォーマンスを向上させる傾向があることを示している。
私たちは、MALAコーパス、EMMA-500 Llama 3スイートアーティファクト、コード、モデル世代をオープンソース化しました。
関連論文リスト
- From Unaligned to Aligned: Scaling Multilingual LLMs with Multi-Way Parallel Corpora [85.44082712798553]
TED Talks に基づく大規模かつ高品質なマルチウェイ並列コーパス TED2025 を導入する。
このデータセットは113の言語にまたがっており、最大50の言語が並列に並び、広範囲にわたるマルチリンガルカバレッジを保証する。
実験により、マルチウェイ並列データでトレーニングされたモデルは、不整合多言語データでトレーニングされたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-05-20T07:43:45Z) - Multilingual Pretraining Using a Large Corpus Machine-Translated from a Single Source Language [34.54405113575568]
1つの高品質なソース言語から機械翻訳されたテキストは、多言語モデルの事前学習に大きく貢献する。
クアトロLLMは、クローズドデータを用いて訓練された最先端の多言語モデルと一致し、より優れることを示す。
私たちは、hf.co/britllm/CuatroLLMでオープンライセンスの下で、コーパス、モデル、トレーニングパイプラインをリリースしています。
論文 参考訳(メタデータ) (2024-10-31T14:09:50Z) - EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - When Is Multilinguality a Curse? Language Modeling for 250 High- and
Low-Resource Languages [25.52470575274251]
私たちは250以上の言語で1万以上のモノリンガルおよび多言語言語モデルを事前訓練しています。
モデレーションでは、多言語データを追加することで、低リソース言語モデリングのパフォーマンスが向上する。
データセットのサイズが大きくなるにつれて、マルチリンガルデータの追加は、低リソース言語と高リソース言語の両方のパフォーマンスを損なうようになる。
論文 参考訳(メタデータ) (2023-11-15T18:47:42Z) - MADLAD-400: A Multilingual And Document-Level Large Audited Dataset [66.12330208082442]
我々はCommonCrawlをベースとした,手動で監査された汎用ドメイン3TトークンモノリンガルデータセットMADLAD-400を紹介する。
我々は,MADLAD-400の自己監査による限界と,データセット作成プロセスにおけるデータ監査の役割について論じる。
論文 参考訳(メタデータ) (2023-09-09T02:34:01Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - Bootstrapping Multilingual Semantic Parsers using Large Language Models [28.257114724384806]
複数の言語にまたがって英語データセットを転送するTranslation-trainパラダイムは、タスク固有の多言語モデルをトレーニングする上で重要な要素である。
本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。
論文 参考訳(メタデータ) (2022-10-13T19:34:14Z) - Building Machine Translation Systems for the Next Thousand Languages [102.24310122155073]
1500以上の言語を対象としたクリーンでWebマイニングされたデータセットの構築、低サービス言語のための実践的なMTモデルの開発、これらの言語に対する評価指標の限界の検証という3つの研究領域における結果について述べる。
我々の研究は、現在調査中の言語のためのMTシステムの構築に取り組んでいる実践者にとって有用な洞察を提供し、データスパース設定における多言語モデルの弱点を補完する研究の方向性を強調したいと考えています。
論文 参考訳(メタデータ) (2022-05-09T00:24:13Z) - Multilingual Translation with Extensible Multilingual Pretraining and
Finetuning [77.33262578776291]
これまでの研究は、bitextで微調整することで機械翻訳システムを作成できることを実証してきた。
多言語翻訳モデルは多言語微調整により作成可能であることを示す。
事前訓練されたモデルは、性能を損なうことなく、追加の言語を組み込むように拡張できることを実証する。
論文 参考訳(メタデータ) (2020-08-02T05:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。