論文の概要: GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Data
- arxiv url: http://arxiv.org/abs/2505.17082v1
- Date: Tue, 20 May 2025 12:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.538782
- Title: GemMaroc: Unlocking Darija Proficiency in LLMs with Minimal Data
- Title(参考訳): GemMaroc: LLMにおける最小データによるDarija習熟度のアンロック
- Authors: Abderrahman Skiredj, Ferdaous Azhari, Houdaifa Atou, Nouamane Tazi, Ismail Berrada,
- Abstract要約: オープンソースの大型言語モデル(LLMs)は依然としてモロッコのアラビア語(ダリヤ)を疎外している
我々は、厳格に品質を優先したアライメント戦略が、流線型Darijaを表面化できることを示します。
- 参考スコア(独自算出の注目度): 4.829481426528624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open-source large language models (LLMs) still marginalise Moroccan Arabic (Darija), forcing practitioners either to bolt on heavyweight Arabic adapters or to sacrifice the very reasoning skills that make LLMs useful. We show that a rigorously quality-over-quantity alignment strategy can surface fluent Darija while safeguarding the backbone s cross-lingual reasoning at a sliver of the usual compute. We translate three compact instruction suites LIMA 1 K, DEITA 6 K and TULU 50 K into Darija, preserve 20 of the English originals, and add mathematics, coding and scientific prompts. A LoRA-tuned Gemma 3-4B trained on 5 K mixed instructions lifts DarijaMMLU from 32.8 to 42.7 ; adding the reasoning-dense TULU portion pushes it to 47.5 with no English regression. Scaling the identical recipe to Gemma 3-27B produces GemMaroc-27B, which matches Atlas-Chat on DarijaMMLU (61.6 ) and leaps ahead on Darija commonsense, scoring 60.5 on HellaSwag versus Atlas-Chat s 48.4 . Crucially, GemMaroc retains Gemma-27B s strong maths and general-reasoning ability, showing only minimal movement on GSM8K and English benchmarks. The entire model is trained in just 48 GPU.h, underscoring a Green AI pathway to inclusive, sustainable language technology. We release code, data and checkpoints to spur Darija-centric applications in education, public services and everyday digital interaction.
- Abstract(参考訳): オープンソースの大型言語モデル(LLMs)は依然としてモロッコのアラビア語(ダリヤ)を疎外し、実践者は重いアラビア文字のアダプタにボルトを掛けるか、LSMを有用にするための非常に理性的なスキルを犠牲にするよう強制する。
そこで本研究では,従来の計算処理のスリーブにおいて,バックボーンsの言語間推論を保護しながら,厳格に高品質なアライメント戦略が実現可能であることを示す。
LIMA 1 K, DEITA 6 K, TULU 50 K の3つのコンパクトな命令スイートを Darija に変換し、20のオリジナルを保存し、数学、コーディング、科学的なプロンプトを追加する。
5K混合命令で訓練された LoRA の Gemma 3-4B は、DarijaMMLU を 32.8 から 42.7 まで持ち上げる。
Gemma 3-27B と同じレシピをスケールすると GemMaroc-27B が DarijaMMLU (61.6 ) 上で Atlas-Chat と一致し、Darija Commonsense を上回り、HellaSwag 対 Atlas-Chat s 48.4 で 60.5 得点した。
GemMarocはGemma-27Bの強い数学と一般的な推論能力を維持しており、GSM8Kとイングランドのベンチマークでは最小限の動きしか示していない。
モデル全体はたった48GPU.hでトレーニングされており、包括的で持続可能な言語技術へのグリーンAIパスを基盤としている。
教育、公共サービス、日々のデジタルインタラクションにおいて、Darija中心のアプリケーションを促進するためのコード、データ、チェックポイントをリリースします。
関連論文リスト
- Gemma 3 Technical Report [198.3299202423321]
Gemma 3は、軽量オープンモデルのGemmaファミリに対するマルチモーダルな追加である。
このバージョンでは、視覚理解能力、より広範な言語カバレッジ、より長いコンテキストが導入されている。
また、長いコンテキストで爆発しがちなKVキャッシュメモリを減らすために、モデルのアーキテクチャを変更します。
論文 参考訳(メタデータ) (2025-03-25T15:52:34Z) - Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect [45.755756115243486]
既存のDarija言語リソースを統合することで,命令データセットを構築する。
データセットに微調整されたAtlas-Chat-2B、9B、27Bモデルは、Darija命令に従う上で優れた能力を示す。
論文 参考訳(メタデータ) (2024-09-26T14:56:38Z) - IrokoBench: A New Benchmark for African Languages in the Age of Large Language Models [18.083861654053585]
IrokoBenchは17の原型的に異なる低リソースのアフリカ言語のための人間翻訳ベンチマークデータセットである。
IrokoBenchを使って、10のオープンおよび6つのプロプライエタリ言語モデルでゼロショット、少数ショット、および翻訳テストの設定(テストセットを英語に翻訳する)を評価します。
オープンモデルとプロプライエタリモデルの間には大きなパフォーマンスギャップがあり、最高パフォーマンスのオープンモデルであるGemma 2 27Bは、最高のパフォーマンスのプロプライエタリモデルであるGPT-4oのパフォーマンスの63%に過ぎません。
論文 参考訳(メタデータ) (2024-06-05T15:23:08Z) - PARAMANU-GANITA: Can Small Math Language Models Rival with Large Language Models on Mathematical Reasoning? [3.9018931027384056]
本研究では,SLM(Small Generative Language Model)のドメイン特化事前学習が,ドメイン特化トークン化とCoT(Chain-of-Thought)命令の微調整が競合性能に与える影響について検討した。
パラマヌ・ガニータ(Paramanu-Ganita)は2億8800万のパラメータを持つ新規デコーダのみのオートレグレッシブSLMを数学で紹介する。
論文 参考訳(メタデータ) (2024-04-22T17:55:56Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - Massively Multilingual Shallow Fusion with Large Language Models [62.76735265311028]
複数の言語で浅い融合のための単一多言語言語モデル(LM)を訓練する。
GLaMは、推論中に同様の計算を行う密度の高いLMと比較して、イングランドのロングテールテストのWERを4.4%削減する。
多言語浅層融合タスクでは、GLaMは50言語中41言語を改善し、平均相対的なWERの3.85%、最大10%の削減を実現している。
論文 参考訳(メタデータ) (2023-02-17T14:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。