論文の概要: Improving Multilingual Math Reasoning for African Languages
- arxiv url: http://arxiv.org/abs/2505.19848v1
- Date: Mon, 26 May 2025 11:35:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.386468
- Title: Improving Multilingual Math Reasoning for African Languages
- Title(参考訳): アフリカの言語における多言語数学推論の改善
- Authors: Odunayo Ogundepo, Akintunde Oladipo, Kelechi Ogueji, Esther Adenuga, David Ifeoluwa Adelani, Jimmy Lin,
- Abstract要約: データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価する実験を行う。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
- 参考スコア(独自算出の注目度): 49.27985213689457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers working on low-resource languages face persistent challenges due to limited data availability and restricted access to computational resources. Although most large language models (LLMs) are predominantly trained in high-resource languages, adapting them to low-resource contexts, particularly African languages, requires specialized techniques. Several strategies have emerged for adapting models to low-resource languages in todays LLM landscape, defined by multi-stage pre-training and post-training paradigms. However, the most effective approaches remain uncertain. This work systematically investigates which adaptation strategies yield the best performance when extending existing LLMs to African languages. We conduct extensive experiments and ablation studies to evaluate different combinations of data types (translated versus synthetically generated), training stages (pre-training versus post-training), and other model adaptation configurations. Our experiments focuses on mathematical reasoning tasks, using the Llama 3.1 model family as our base model.
- Abstract(参考訳): 低リソース言語に取り組んでいる研究者は、データ可用性が制限され、計算リソースへのアクセスが制限されたため、永続的な課題に直面している。
ほとんどの大規模言語モデル(LLM)は、主に高リソース言語で訓練されているが、低リソースの文脈、特にアフリカの言語に適応するには特別な技術が必要である。
マルチステージ事前学習とポストトレーニングパラダイムによって定義されたLLMランドスケープにおいて、モデルを低リソース言語に適用するためのいくつかの戦略が登場した。
しかし、最も効果的なアプローチはいまだ不明である。
本研究は,既存のLLMをアフリカ語に拡張する際に,どの適応戦略が最高の性能をもたらすかを体系的に検討する。
我々は、データタイプ(翻訳と合成)、トレーニングステージ(事前学習と後学習)、その他のモデル適応構成の異なる組み合わせを評価するために、広範囲な実験とアブレーション研究を行っている。
実験では,Llama 3.1 モデルファミリをベースモデルとして,数学的推論タスクに着目した。
関連論文リスト
- Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Foundation Models for Low-Resource Language Education (Vision Paper) [31.80093028879394]
大規模言語モデル(LLM)は、自然言語を扱うための強力なツールである。
LLMは、限られたトレーニングデータと文化的なニュアンスを理解するのが難しいため、低リソース言語に適用する際の課題に直面している。
本稿では,LLMが低リソース言語への教育をいかに強化するかを論じ,実践的応用とメリットを強調した。
論文 参考訳(メタデータ) (2024-12-06T04:34:45Z) - Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - MoE-CT: A Novel Approach For Large Language Models Training With Resistance To Catastrophic Forgetting [53.77590764277568]
ベースモデルの学習を多言語拡張プロセスから分離する新しいMoE-CTアーキテクチャを提案する。
我々の設計では、元のLLMパラメータを凍結し、高リソース言語のパフォーマンスを保護しますが、様々な言語データセットに基づいてトレーニングされたMoEモジュールは、低リソース言語の習熟度を向上します。
論文 参考訳(メタデータ) (2024-06-25T11:03:45Z) - Targeted Multilingual Adaptation for Low-resource Language Families [17.212424929235624]
我々は、事前学習されたモデルを言語族に適応させるためのベストプラクティスについて研究する。
適応モデルは単言語および多言語ベースラインを大きく上回る。
低リソース言語は、高リソース言語のパフォーマンスをほとんど犠牲にすることなく、トレーニング中に積極的にアップサンプリングできる。
論文 参考訳(メタデータ) (2024-05-20T23:38:06Z) - Bridging the Bosphorus: Advancing Turkish Large Language Models through Strategies for Low-Resource Language Adaptation and Benchmarking [1.3716808114696444]
大規模言語モデル(LLM)は様々な分野において重要になってきており、表現不足の言語における高品質なモデルの緊急性を強調している。
本研究では、データ不足、モデル選択、評価、計算制限など、低リソース言語が直面する固有の課題について検討する。
論文 参考訳(メタデータ) (2024-05-07T21:58:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。