論文の概要: Mubeen AI: A Specialized Arabic Language Model for Heritage Preservation and User Intent Understanding
- arxiv url: http://arxiv.org/abs/2510.23271v1
- Date: Mon, 27 Oct 2025 12:29:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.545756
- Title: Mubeen AI: A Specialized Arabic Language Model for Heritage Preservation and User Intent Understanding
- Title(参考訳): Mubeen AI: 遺産保存とユーザインテント理解のためのアラビア特化言語モデル
- Authors: Mohammed Aljafari, Ismail Alturki, Ahmed Mori, Yehya Kadumi,
- Abstract要約: Mubeenは、MASARAT SAによって開発されたアラビア語のプロプライエタリなモデルである。
アラビア語の言語学、イスラーム研究、文化遺産の深い理解に最適化されている。
このモデルには、言語学、法学、ハディース、クラーニック・エクセゲシスの学究的な研究が含まれている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mubeen is a proprietary Arabic language model developed by MASARAT SA, optimized for deep understanding of Arabic linguistics, Islamic studies, and cultural heritage. Trained on an extensive collection of authentic Arabic sources significantly expanded by digitizing historical manuscripts via a proprietary Arabic OCR engine, the model incorporates seminal scholarly works in linguistics, jurisprudence, hadith, and Quranic exegesis, alongside thousands of academic theses and peer-reviewed research papers. Conditioned through a deep linguistic engineering framework, Mubeen masters not just the meaning but the eloquence of Arabic, enabling precise understanding across classical texts, contemporary writing, and regional dialects with focus on comprehending user intent and delivering accurate, contextually relevant responses. Unlike other Arabic models relying on translated English data that often fail in intent detection or retrieval-augmented generation (RAG), Mubeen uses native Arabic sources to ensure cultural authenticity and accuracy. Its core innovation is the Practical Closure Architecture, designed to solve the "Utility Gap Crisis" where factually correct answers fail to resolve users' core needs, forcing them into frustrating cycles of re-prompting. By prioritizing clarity and decisive guidance, Mubeen transforms from an information repository into a decisive guide, aligning with Saudi Vision 2030. The model's architecture combines deep heritage specialization with multi-disciplinary expert modules, enabling robust performance across both cultural preservation and general knowledge domains.
- Abstract(参考訳): ムベン(Mubeen)は、アラビア語の言語学、イスラーム研究、文化遺産の深い理解のために最適化された、MASARAT SAによって開発された独自のアラビア語モデルである。
プロプライエタリなアラビアOCRエンジンで歴史写本をデジタル化することで、アラビア情報源の膨大なコレクションに基づいて訓練され、このモデルは言語学、法学、ハディース、クラーニック・エクセゲシスなどの学術的な研究論文と、何千もの学術論文や査読された研究論文を取り入れた。
深い言語工学の枠組みを通して、ムベンはアラビア語の意味だけでなく、アラビア語の雄弁さを習得し、古典的なテキスト、現代の文章、地域方言を正確に理解し、ユーザの意図を理解し、正確な文脈に関連のある応答を提供することに集中している。
他のアラビア語のモデルは、意図の検出や検索強化世代(RAG)でしばしば失敗する翻訳された英語データに依存しているが、ムベンは文化の正しさと正確性を確保するためにアラビア語の原源を使用している。
その中心となるイノベーションは、"ユーティリティギャップ危機"を解決するために設計された、実践的クロージャアーキテクチャである。
明快さと決定的なガイダンスを優先することで、ムベンは情報リポジトリから決定的なガイドへと転換し、サウジビジョン2030と整合する。
モデルのアーキテクチャは、深層遺産の専門化と多分野の専門家モジュールを組み合わせることで、文化的保存と一般知識ドメインの両方にわたる堅牢なパフォーマンスを実現する。
関連論文リスト
- MuDRiC: Multi-Dialect Reasoning for Arabic Commonsense Validation [30.670712065855902]
複数の方言を組み込んだ拡張アラビア・コモンセンスデータセットである MuDRiC を導入し,(ii) アラビア・コモンセンス推論にグラフ畳み込みネットワーク(GCN)を適応させる新しい手法を提案する。
我々の研究は、その複雑なバリエーションを扱うための基礎的データセットと新しい方法の両方を提供することで、アラビア語の自然言語理解を強化する。
論文 参考訳(メタデータ) (2025-08-18T17:42:53Z) - Enhanced Arabic Text Retrieval with Attentive Relevance Scoring [12.053940320312355]
アラビア語は自然言語処理と情報検索に特に挑戦している。
アラビア語の国際的重要性は高まっているが、NLPの研究やベンチマークの資源では未だに不足している。
本稿ではアラビア語に特化した拡張されたDense Passage Retrievalフレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-31T10:18:28Z) - Arabizi vs LLMs: Can the Genie Understand the Language of Aladdin? [0.4751886527142778]
アラビジはラテン文字と数字を含むアラビア語のハイブリッド形である。
機械翻訳には形式的な構造が欠如しているため、大きな課題がある。
本研究は、アラビジ語を現代標準アラビア語と英語の両方に翻訳する際のモデルの性能について検討する。
論文 参考訳(メタデータ) (2025-02-28T11:37:52Z) - Second Language (Arabic) Acquisition of LLMs via Progressive Vocabulary Expansion [70.23624194206171]
本稿では,アラブ世界における大規模言語モデル(LLM)の民主化の必要性に対処する。
アラビア語のLLMの実用的な目的の1つは、復号を高速化するトークン化器にアラビア語固有の語彙を使用することである。
第二言語(アラビア語)による人への獲得の間に語彙学習に触発されたAraLLaMAは、進歩的な語彙拡張を採用している。
論文 参考訳(メタデータ) (2024-12-16T19:29:06Z) - 101 Billion Arabic Words Dataset [0.0]
本研究の目的は、アラブ世界のデータ不足に対処し、アラビア語モデルの開発を促進することである。
我々は大規模なデータマイニングプロジェクトを行い、Common Crawl WETファイルから大量のテキストを抽出した。
抽出されたデータは、データセットの完全性とユニーク性を保証するために革新的な技術を用いて、厳密なクリーニングと重複処理が行われた。
論文 参考訳(メタデータ) (2024-04-29T13:15:03Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。