論文の概要: UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
- arxiv url: http://arxiv.org/abs/2508.17378v1
- Date: Sun, 24 Aug 2025 14:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.493723
- Title: UI-Level Evaluation of ALLaM 34B: Measuring an Arabic-Centric LLM via HUMAIN Chat
- Title(参考訳): ALaM 34BのUIレベル評価:HUMAIN Chatを用いたアラビア中央LLMの測定
- Authors: Omer Nacar,
- Abstract要約: サウジのデータとAI機関は、アラビアに焦点を当てたモデルのファミリーである$allaM$を導入した。
最も有能な$ALLaM-34B$は、HUMAIN Chatを開発したHUMAINによって採用された。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
- 参考スコア(独自算出の注目度): 1.2788586581322734
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) trained primarily on English corpora often struggle to capture the linguistic and cultural nuances of Arabic. To address this gap, the Saudi Data and AI Authority (SDAIA) introduced the $ALLaM$ family of Arabic-focused models. The most capable of these available to the public, $ALLaM-34B$, was subsequently adopted by HUMAIN, who developed and deployed HUMAIN Chat, a closed conversational web service built on this model. This paper presents an expanded and refined UI-level evaluation of $ALLaM-34B$. Using a prompt pack spanning modern standard Arabic, five regional dialects, code-switching, factual knowledge, arithmetic and temporal reasoning, creative generation, and adversarial safety, we collected 115 outputs (23 prompts times 5 runs) and scored each with three frontier LLM judges (GPT-5, Gemini 2.5 Pro, Claude Sonnet-4). We compute category-level means with 95\% confidence intervals, analyze score distributions, and visualize dialect-wise metric heat maps. The updated analysis reveals consistently high performance on generation and code-switching tasks (both averaging 4.92/5), alongside strong results in MSA handling (4.74/5), solid reasoning ability (4.64/5), and improved dialect fidelity (4.21/5). Safety-related prompts show stable, reliable performance of (4.54/5). Taken together, these results position $ALLaM-34B$ as a robust and culturally grounded Arabic LLM, demonstrating both technical strength and practical readiness for real-world deployment.
- Abstract(参考訳): 大きな言語モデル(LLM)は、主に英語のコーパスに基づいて訓練され、アラビア語の言語的・文化的ニュアンスを捉えるのに苦労することが多い。
このギャップに対処するため、サウジデータ・AI機関(SDAIA)は、アラビアに焦点を当てたモデルのファミリである$allaM$を導入した。
最も有能な$ALLaM-34B$はその後HUMAINに採用され、HUMAIN Chatを開発した。
本稿では,拡張されたUIレベルの$ALLaM-34B$について述べる。
現代の標準アラビア語,5つの地域方言,コードスイッチング,事実知識,算術的および時間的推論,創造的生成,敵対的安全性を対象とするプロンプトパックを用いて,115のアウトプット(23回のプロンプト5回)を収集し,それぞれをフロンティアLLM審査員(GPT-5,Gemini 2.5 Pro,Claude Sonnet-4)で得点した。
我々は、95%の信頼区間を持つカテゴリーレベルの平均を計算し、スコア分布を分析し、弁証的計量熱マップを視覚化する。
最新の分析では、MSA処理(4.74/5)、ソリッド推論能力(4.64/5)、改良された方言忠実度(4.21/5)の強い結果とともに、生成およびコードスイッチングタスク(平均4.92/5)が一貫して高いパフォーマンスを示している。
安全関連プロンプトは安定かつ信頼性の高い4.54/5の性能を示す。
これらの結果はともに、$ALLaM-34B$を強靭で文化的に根ざしたアラビアのLLMと位置づけ、実世界の展開に技術的強度と実用性の両方を実証した。
関連論文リスト
- Saudi-Dialect-ALLaM: LoRA Fine-Tuning for Dialectal Arabic Generation [0.0]
アラビア語の大きな言語モデル(LLM)は現代標準アラビア語(MSA)に支配されている。
この表現不足は、真正な方言の変化を捉える能力を妨げている。
サウジアラビア方言教育データセットを用いて,サウジアラビア方言生成の基礎モデルを構築した。
論文 参考訳(メタデータ) (2025-08-19T05:33:48Z) - BALSAM: A Platform for Benchmarking Arabic Large Language Models [34.50348949235453]
BALSAMは、アラビア語のLLM開発と評価を進めることを目的とした総合的なコミュニティ主導のベンチマークである。
14の幅広いカテゴリから78のNLPタスクが含まれており、52Kのサンプルは37Kテストと15K開発に分割されている。
論文 参考訳(メタデータ) (2025-07-30T12:16:39Z) - Advancing Dialectal Arabic to Modern Standard Arabic Machine Translation [15.773183176935405]
本稿では,レバンタ語,エジプト語,湾岸方言のDA-MSA翻訳の進展に寄与する2つの中核的貢献について述べる。
ゼロショット,チェーン・オブ・シント,提案手法であるAra-TEaR法を改良した。
共同で訓練されたマルチダイアレクトモデルは、シングルダイアレクトのモデルを10%以上のCHrF++で上回った。
論文 参考訳(メタデータ) (2025-07-27T14:37:53Z) - ArabicMMLU: Assessing Massive Multitask Language Understanding in Arabic [51.922112625469836]
アラビア語における最初のマルチタスク言語理解ベンチマークである、データセット名を提案する。
我々のデータは、現代標準アラビア語(MSA)における40のタスクと14,575のマルチチョイス質問で構成されており、地域の母語話者と協調して慎重に構築されている。
35モデルについて評価した結果,特にオープンソースモデルにおいて,改善の余地がかなり高いことが判明した。
論文 参考訳(メタデータ) (2024-02-20T09:07:41Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。