論文の概要: RightNow-Arabic-0.5B-Turbo: An Open Sub-1B Arabic Language Model via Vocabulary Injection and Edge-First Deployment
- arxiv url: http://arxiv.org/abs/2605.28827v1
- Date: Fri, 10 Apr 2026 00:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-15 07:09:36.54005
- Title: RightNow-Arabic-0.5B-Turbo: An Open Sub-1B Arabic Language Model via Vocabulary Injection and Edge-First Deployment
- Title(参考訳): RightNow-Arabic-0.5B-Turbo: 語彙注入とエッジファースト展開によるオープンSub-1Bアラビア言語モデル
- Authors: Jaber Jaber, Osama Jaber,
- Abstract要約: 我々はQwen2.5-0.5B上に構築された518Mパラメータのアラビア語専用デコーダであるRightNow-Arabic-0.5B-Turboを提案する。
パイプラインには平均サブトークンで27,032個のアラビアトークンが追加されている。
マージされたモデルは平均精度35.9%に達し、全ての同クラスのオープンモデルを打ち負かし、1/18パラメータでSILMA-9Bの平均の67%を回復する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open Arabic large language models split into two classes: sub-1B multilingual models that treat Arabic as an afterthought (Qwen2.5-0.5B, Falcon-H1-0.5B), and 7B-70B Arabic-specialized models that require a server to run (Jais, AceGPT, ALLaM, SILMA). The one published attempt at a sub-2B Arabic-specialized model, Kuwain-1.5B, never released its weights. We present RightNow-Arabic-0.5B-Turbo, a 518M-parameter Arabic-specialized decoder LLM built on Qwen2.5-0.5B. The pipeline adds 27,032 Arabic tokens via mean-subtoken initialization, continues pretraining on 504M Arabic tokens on 8xH100 with FSDP, FlashAttention varlen packing, and Liger fused kernels, then applies supervised fine-tuning on 129,116 Arabic instruction pairs with response-only loss masking, direct preference optimization on 6,750 Arabic preference pairs, and weight soup merging across three checkpoints. On three lm-evaluation-harness Arabic benchmarks (COPA-ar, Arabic HellaSwag, ArabicMMLU) the merged model reaches 35.9% mean accuracy, beats every same-class open model, ties Falcon-H1-1.5B on COPA-ar (58.4%) at one-third the size, and recovers 67% of SILMA-9B's mean at 1/18 the parameters. The edge build quantizes to 398 MB (q4_k_m) and delivers 635 tokens/s at batch size 1 on a single H100 via llama.cpp. All code (5,555 lines across 25 scripts), weights (bf16, int8, and four GGUF quantizations), and benchmark scripts are released at https://huggingface.co/RightNowAI/RightNow-Arabic-0.5B-Turbo.
- Abstract(参考訳): オープンアラビアの大規模言語モデルは、アラビア語を後述語として扱うサブ-1B多言語モデル(Qwen2.5-0.5B、Falcon-H1-0.5B)と、サーバーの実行を必要とする7B-70Bアラビア特化モデル(Jais、AceGPT、ALLaM、SILMA)に分けられる。
サブ2Bのアラビア特化モデルであるクワイン1.5Bの試みは、その重量を公表しなかった。
我々はQwen2.5-0.5B上に構築された518Mパラメーターのアラビア語専用デコーダLLMであるRightNow-Arabic-0.5B-Turboを紹介する。
パイプラインは平均サブトークン初期化を通じて27,032個のアラビアトークンを追加し、FSDP、FlashAttention varlen Packing、Liger Fusedカーネルで8xH100で504Mのアラビアトークンを事前トレーニングし、その後、応答のみの損失マスク付き129,116個のアラビア命令ペア、6,750個のアラビア好みペアでの直接の優先最適化、および3つのチェックポイント間でマージされるウェイトスープを監督的に微調整する。
3つの lm-evaluation-harness アラビアベンチマーク(COPA-ar, Arabic HellaSwag, ArabicMMLU)では、マージされたモデルは平均精度35.9%に達し、全ての同一クラスのオープンモデル、COPA-ar (58.4%) 上のFalcon-H1-1.5Bを1/18で結び付け、SILMA-9Bの平均値の67%を1/18で回収する。
エッジビルドは398MB (q4_k_m)に量子化され、llama.cppを介して単一のH100上でバッチサイズ1で635トークン/sを提供する。
すべてのコード(25のスクリプトで5,555行)、ウェイト(bf16, int8, 4つのGGUF量子化)、ベンチマークスクリプトはhttps://huggingface.co/RightNowAI/RightNow-Arabic-0.5B-Turboでリリースされる。
関連論文リスト
- AraToken: Optimizing Arabic Tokenization with Normalization Pipeline and Language Extension for Qwen3 [4.284434049360481]
本稿では、SentencePiece Unigramアルゴリズム上に構築されたアラビア最適化トークンであるAraTokenを紹介する。
正常化したSentencePieceは、非正規化ベースラインに比べて18%低い受精率(1.199対1.35トークン/ワード)を達成することを示す。
実験の結果,LEPは100Kアラビアサンプルの800段階において,評価損失を8.28から2.43に減少させることがわかった。
論文 参考訳(メタデータ) (2025-12-20T15:32:10Z) - Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Arabic-Nougat: Fine-Tuning Vision Transformers for Arabic OCR and Markdown Extraction [0.0]
我々は、アラビア語の書籍ページを構造化テキストに変換するためのOCRモデルの組であるアラビア・ヌーガを提示する。
MetaのNougatアーキテクチャに基づくアラビア・ヌーガットには、アラビア小ヌーガット、アラビアベースヌーガット、アラビア大ヌーガットの3つの特殊モデルがある。
主な貢献は、効率的なトークン化のために設計されたAranizer-PBE-86kトークンライザと、Flash Attention 2による torch.bfloat16 の精度の使用である。
論文 参考訳(メタデータ) (2024-11-19T12:09:12Z) - AlcLaM: Arabic Dialectal Language Model [2.8477895544986955]
ソーシャルメディアプラットフォームから収集した340万文からなるアラビア語方言コーパスを構築した。
我々はこのコーパスを用いて語彙を拡大し、BERTベースのモデルをスクラッチから再訓練する。
AlcLaMという名前の私たちのモデルは、既存のモデルで使われているデータのごく一部を表す、わずか13GBのテキストで訓練された。
論文 参考訳(メタデータ) (2024-07-18T02:13:50Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。