論文の概要: Fanar 2.0: Arabic Generative AI Stack
- arxiv url: http://arxiv.org/abs/2603.16397v1
- Date: Tue, 17 Mar 2026 11:35:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.24452
- Title: Fanar 2.0: Arabic Generative AI Stack
- Title(参考訳): Fanar 2.0: アラビア語生成AIスタック
- Authors: FANAR TEAM, Ummar Abbas, Mohammad Shahmeer Ahmad, Minhaj Ahmad, Abdulaziz Al-Homaid, Anas Al-Nuaimi, Enes Altinisik, Ehsaneddin Asgari, Sanjay Chawla, Shammur Chowdhury, Fahim Dalvi, Kareem Darwish, Nadir Durrani, Mohamed Elfeky, Ahmed Elmagarmid, Mohamed Eltabakh, Asim Ersoy, Masoomali Fatehkia, Mohammed Qusay Hashim, Majd Hawasly, Mohamed Hefeeda, Mus'ab Husaini, Keivin Isufaj, Soon-Gyo Jung, Houssam Lachemat, Ji Kim Lucas, Abubakr Mohamed, Tasnim Mohiuddin, Basel Mousi, Hamdy Mubarak, Ahmad Musleh, Mourad Ouzzani, Amin Sadeghi, Husrev Taha Sencar, Mohammed Shinoy, Omar Sinan, Yifan Zhang,
- Abstract要約: Fanar 2.0は、カタールのアラビア中心のジェネレーティブAIプラットフォームの第2世代である。
この取り組みは256のNVIDIA H100 GPUで実行され、4億人のネイティブスピーカーにもかかわらず、アラビア語のWebデータはわずか0.5%しかなかった。
Fanar 2.0は、量よりもデータ品質の規律ある戦略、ターゲットとなる事前トレーニング、モデルマージを採用して、実質的なゲインを実現している。
- 参考スコア(独自算出の注目度): 25.9479146243898
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Fanar 2.0, the second generation of Qatar's Arabic-centric Generative AI platform. Sovereignty is a first-class design principle: every component, from data pipelines to deployment infrastructure, was designed and operated entirely at QCRI, Hamad Bin Khalifa University. Fanar 2.0 is a story of resource-constrained excellence: the effort ran on 256 NVIDIA H100 GPUs, with Arabic having only ~0.5% of web data despite 400 million native speakers. Fanar 2.0 adopts a disciplined strategy of data quality over quantity, targeted continual pre-training, and model merging to achieve substantial gains within these constraints. At the core is Fanar-27B, continually pre-trained from a Gemma-3-27B backbone on a curated corpus of 120 billion high-quality tokens across three data recipes. Despite using 8x fewer pre-training tokens than Fanar 1.0, it delivers substantial benchmark improvements: Arabic knowledge (+9.1 pts), language (+7.3 pts), dialects (+3.5 pts), and English capability (+7.6 pts). Beyond the core LLM, Fanar 2.0 introduces a rich stack of new capabilities. FanarGuard is a state-of-the-art 4B bilingual moderation filter for Arabic safety and cultural alignment. The speech family Aura gains a long-form ASR model for hours-long audio. Oryx vision family adds Arabic-aware image and video understanding alongside culturally grounded image generation. An agentic tool-calling framework enables multi-step workflows. Fanar-Sadiq utilizes a multi-agent architecture for Islamic content. Fanar-Diwan provides classical Arabic poetry generation. FanarShaheen delivers LLM-powered bilingual translation. A redesigned multi-layer orchestrator coordinates all components through intent-aware routing and defense-in-depth safety validation. Taken together, Fanar 2.0 demonstrates that sovereign, resource-constrained AI development can produce systems competitive with those built at far greater scale.
- Abstract(参考訳): 私たちは、カタールのアラビア中心のジェネレーティブAIプラットフォームの第2世代であるFanar 2.0を紹介します。
Sovereigntyは、データパイプラインからデプロイメントインフラストラクチャまで、すべてのコンポーネントがQCRI(英語版)、ハマド・ビン・ハリファ大学(英語版)で設計・運用されている。
Fanar 2.0はリソース制限された卓越性に関する物語だ。この取り組みは256 NVIDIA H100 GPU上で実行され、ネイティブスピーカー4億人にもかかわらず、アラビアのWebデータはわずか0.5%だった。
Fanar 2.0は、量よりもデータ品質の規律的な戦略、目標とする継続的事前トレーニング、モデルマージを採用して、これらの制約の中でかなりの利益を達成している。
コアとなるFanar-27Bは、Gemma-3-27Bのバックボーンから3つのデータレシピにまたがる1200億の高品質なトークンをキュレートしたコーパスで継続的に事前訓練されている。
Fanar 1.0より8倍少ない事前トレーニングトークンを使用しているにもかかわらず、アラビア語の知識(+9.1 pts)、言語(+7.3 pts)、方言(+3.5 pts)、英語の能力(+7.6 pts)など、かなりのベンチマーク改善がなされている。
コア LLM の他に、Fanar 2.0 は豊富な新機能のスタックを導入している。
FanarGuardは、アラビア語の安全性と文化的アライメントのための最先端の4Bバイリンガルモデレーションフィルタである。
音声ファミリーのAuraは、数時間のオーディオのための長めのASRモデルを取得する。
Oryx Visionファミリーは、文化的根拠のある画像生成とともに、アラビア語を意識した画像とビデオ理解を追加する。
エージェントツール呼び出しフレームワークは、多ステップワークフローを可能にする。
Fanar-Sadiqは、イスラムコンテンツのためのマルチエージェントアーキテクチャを利用している。
ファナー=ディワンは古典的なアラビア詩の世代を提供している。
FanarShaheenはLLMベースのバイリンガル翻訳を提供する。
再設計された多層オーケストレータは、インテント・アウェア・ルーティングとディフェンス・イン・ディペンデンス・セーフ・バリデーションを通じて、すべてのコンポーネントをコーディネートする。
Fanar 2.0は、ソブリンでリソースに制約のあるAI開発が、はるかに大規模に構築されたシステムと競合するシステムを生み出すことを実証している。
関連論文リスト
- Hala Technical Report: Building Arabic-Centric Instruction & Translation Models at Scale [51.41777906371754]
私たちはHalaを紹介します。これはアラビア語中心の命令と翻訳モデルのファミリーで、私たちのトランスレーショナル・トゥン・パイプラインで構築されています。
軽量言語モデル LFM2-1.2B は、このデータに基づいて微調整され、高品質の英語の命令セットをアラビア語に翻訳するために使用される。
我々は、Halaモデルを350M、700M、1.2B、9Bパラメータでトレーニングし、アラビア語の特殊化とベースモデルの強度のバランスをとるためにスラープマージを適用します。
論文 参考訳(メタデータ) (2025-09-17T14:19:28Z) - UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat [1.2788586581322734]
サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
論文 参考訳(メタデータ) (2025-08-24T14:32:15Z) - AIN: The Arabic INclusive Large Multimodal Model [71.29419186696138]
AIN (英語: AIN) は、英語とアラビア語で卓越するように設計された英語とアラビア語のバイリンガルLMMである。
AINは最先端のアラビア語のパフォーマンスを実証する一方で、英語の視覚能力も優れている。
AINの優れた能力は、先進的なマルチモーダル生成AIツールでアラビア語話者を強化するための重要なステップである。
論文 参考訳(メタデータ) (2025-01-31T18:58:20Z) - Fanar: An Arabic-Centric Multimodal Generative AI Platform [43.949498804697754]
Fanarは、アラビア語中心のマルチモーダル生成AIシステムのためのプラットフォームである。
ファナーの中心にはファナー・スターとファナー・プライムがある。
Fanarは、社内のバイリンガル音声認識を含む追加の認知機能を提供する。
論文 参考訳(メタデータ) (2025-01-18T05:35:32Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - Jais and Jais-chat: Arabic-Centric Foundation and Instruction-Tuned Open
Generative Large Language Models [57.76998376458017]
私たちはJaisとJais-chatを紹介します。これは、最先端のアラビア中心の新たな基礎であり、命令で調整されたオープンな生成型大言語モデル(LLMs)です。
モデルはGPT-3デコーダのみのアーキテクチャに基づいており、アラビア語と英語のテキストが混在している。
本稿では、トレーニング、チューニング、安全性アライメント、モデルの評価について詳述する。
論文 参考訳(メタデータ) (2023-08-30T17:07:17Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。