論文の概要: AfriqueLLM: How Data Mixing and Model Architecture Impact Continued Pre-training for African Languages
- arxiv url: http://arxiv.org/abs/2601.06395v1
- Date: Sat, 10 Jan 2026 02:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.792937
- Title: AfriqueLLM: How Data Mixing and Model Architecture Impact Continued Pre-training for African Languages
- Title(参考訳): AfriqueLLM: アフリカの言語におけるデータ混合とモデルアーキテクチャの影響
- Authors: Hao Yu, Tianyi Xu, Michael A. Hedderich, Wassim Hamidouche, Syed Waqas Zamir, David Ifeoluwa Adelani,
- Abstract要約: 大規模言語モデル(LLM)は多言語化が進んでいるが、オープンモデルはプロプライエタリなシステムに比べて性能が劣っている。
我々は26Bトークン上でCPTを通じて20のアフリカ言語に適応したオープンLLMスイートである textttAfriqueLLM を提示する。
- 参考スコア(独自算出の注目度): 30.309928265469427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly multilingual, yet open models continue to underperform relative to proprietary systems, with the gap most pronounced for African languages. Continued pre-training (CPT) offers a practical route to language adaptation, but improvements on demanding capabilities such as mathematical reasoning often remain limited. This limitation is driven in part by the uneven domain coverage and missing task-relevant knowledge that characterize many low-resource language corpora. We present \texttt{AfriqueLLM}, a suite of open LLMs adapted to 20 African languages through CPT on 26B tokens. We perform a comprehensive empirical study across five base models spanning sizes and architectures, including Llama 3.1, Gemma 3, and Qwen 3, and systematically analyze how CPT data composition shapes downstream performance. In particular, we vary mixtures that include math, code, and synthetic translated data, and evaluate the resulting models on a range of multilingual benchmarks. Our results identify data composition as the primary driver of CPT gains. Adding math, code, and synthetic translated data yields consistent improvements, including on reasoning-oriented evaluations. Within a fixed architecture, larger models typically improve performance, but architectural choices dominate scale when comparing across model families. Moreover, strong multilingual performance in the base model does not reliably predict post-CPT outcomes; robust architectures coupled with task-aligned data provide a more dependable recipe. Finally, our best models improve long-context performance, including document-level translation. Models have been released on [Huggingface](https://huggingface.co/collections/McGill-NLP/afriquellm).
- Abstract(参考訳): 大規模言語モデル(LLM)は多言語化が進んでいるが、オープンモデルはプロプライエタリなシステムに比べて性能が劣っている。
継続事前学習(CPT)は、言語適応への実践的な経路を提供するが、数学的推論のような要求機能の改善は、しばしば制限される。
この制限は、不均一なドメインカバレッジと、多くの低リソース言語コーパスを特徴付けるタスク関連知識の欠如によっても引き起こされる。
我々は,26Bトークン上のCPTを通じて20のアフリカ言語に適応したオープンなLLMスイートである‘texttt{AfriqueLLM} を提示する。
我々は,Llama 3.1,Gemma 3,Qwen 3を含むサイズとアーキテクチャにまたがる5つのベースモデルを対象とした総合的な実証的研究を行い,CPTデータ構成が下流のパフォーマンスをどのように形成するかを体系的に分析した。
特に、数学、コード、合成されたデータを含む混合体を多言語ベンチマークで評価する。
この結果から,データ合成がCPTゲインの主要なドライバであることがわかった。
数学、コード、合成されたデータを追加すると、推論指向の評価を含む一貫した改善が得られる。
固定アーキテクチャでは、より大きなモデルでは通常パフォーマンスが向上するが、モデルファミリをまたいだ比較では、アーキテクチャの選択がスケールを支配している。
さらに、ベースモデルにおける強い多言語のパフォーマンスは、CPT後の結果を確実に予測しない。
最後に、文書レベルの翻訳を含む、私たちの最高のモデルにより、長文のパフォーマンスが向上する。
Huggingface](https://huggingface.co/collections/McGill-NLP/afriquellm)でモデルがリリースされた。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - The Unreasonable Effectiveness of Model Merging for Cross-Lingual Transfer in LLMs [45.08958917457921]
大規模言語モデル(LLM)は、ハイソース言語以外のタスクで依然として苦戦している。
本研究では,タスク固有のポストトレーニングデータが不足している低リソース言語への言語間移動について検討する。
論文 参考訳(メタデータ) (2025-05-23T20:28:31Z) - Lugha-Llama: Adapting Large Language Models for African Languages [48.97516583523523]
大規模言語モデル(LLM)は、幅広い自然言語アプリケーションにおいて印象的な成果を上げている。
低リソースのアフリカ言語にLLMを適用する方法について検討する。
アフリカの言語から得られたキュレートされたデータと高品質な英語の教育用テキストを組み合わせることで、これらの言語上でのモデルの性能を大幅に向上させる訓練ミックスが得られることがわかった。
論文 参考訳(メタデータ) (2025-04-09T02:25:53Z) - P-MMEval: A Parallel Multilingual Multitask Benchmark for Consistent Evaluation of LLMs [84.24644520272835]
本稿では,P-MMEvalを提案する。P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P-MMEval,P -M
P-MMEvalは、さまざまなデータセットにわたって一貫した言語カバレッジを提供し、並列サンプルを提供する。
我々は、モデルとタスク間の性能を比較するために、代表的多言語モデル系列に関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-11-14T01:29:36Z) - Accelerating Large Language Model Pretraining via LFR Pedagogy: Learn, Focus, and Review [50.78587571704713]
Learn-Focus-Review(LFR)は、モデルの学習進捗に適応する動的トレーニングアプローチである。
LFRは、データブロック(トークンのシーケンス)にわたるモデルの学習パフォーマンスを追跡し、データセットの困難な領域を再検討する。
フルデータセットでトレーニングされたベースラインモデルと比較して、LFRは一貫して低いパープレキシティと高い精度を達成した。
論文 参考訳(メタデータ) (2024-09-10T00:59:18Z) - Improving Massively Multilingual ASR With Auxiliary CTC Objectives [40.10307386370194]
FLEURSは102言語によるオープンASRベンチマークである。
我々は,最近のコネクショニスト時間分類(CTC)研究から着想を得た手法を考察し,モデルが多数の言語を扱えるようにした。
コンバータアーキテクチャを用いた自己教師型モデルを用いた最先端システムでは,相対28.4%CERによるFLEURSの先行研究よりも改善されている。
論文 参考訳(メタデータ) (2023-02-24T18:59:51Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - A Data Efficient End-To-End Spoken Language Understanding Architecture [22.823732899634518]
我々は、事前訓練された外部モジュールを追加せずに、エンドツーエンドで訓練されたデータ効率システムを導入する。
提案モデルでは,小規模なトレーニングデータセットを用いて,最先端技術に対して,適切なサイズと競争力のある結果が得られる。
論文 参考訳(メタデータ) (2020-02-14T10:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。