Fugu-MT 論文翻訳(概要): SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

論文の概要: SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

arxiv url: http://arxiv.org/abs/2603.04410v1
Date: Tue, 03 Feb 2026 12:13:42 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 01:20:08.187781
Title: SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models
Title（参考訳）: SalamahBench: アラビア語モデルの標準化された安全性評価を目指して
Authors: Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh, Ihsen Alouani, Mohammed E. Fouda,
Abstract要約: 本稿ではアラビア語モデル(ALM)の安全性を評価する統一ベンチマークであるSalamaBenchを紹介する。このベンチマークを用いて,Fanar 1,2,ALLaM 2,Falcon H1R,Jais 2の5つの最先端ALMを複数のセーフガード構成で評価した。
参考スコア（独自算出の注目度）: 6.0860786631767185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Safety alignment in Language Models (LMs) is fundamental for trustworthy AI. However, while different stakeholders are trying to leverage Arabic Language Models (ALMs), systematic safety evaluation of ALMs remains largely underexplored, limiting their mainstream uptake. Existing safety benchmarks and safeguard models are predominantly English-centric, limiting their applicability to Arabic Natural Language Processing (NLP) systems and obscuring fine-grained, category-level safety vulnerabilities. This paper introduces SalamaBench, a unified benchmark for evaluating the safety of ALMs, comprising $8,170$ prompts across $12$ different categories aligned with the MLCommons Safety Hazard Taxonomy. Constructed by harmonizing heterogeneous datasets through a rigorous pipeline involving AI filtering and multi-stage human verification, SalamaBench enables standardized, category-aware safety evaluation. Using this benchmark, we evaluate five state-of-the-art ALMs, including Fanar 1 and 2, ALLaM 2, Falcon H1R, and Jais 2, under multiple safeguard configurations, including individual guard models, majority-vote aggregation, and validation against human-annotated gold labels. Our results reveal substantial variation in safety alignment: while Fanar 2 achieves the lowest aggregate attack success rates, its robustness is uneven across specific harm domains. In contrast, Jais 2 consistently exhibits elevated vulnerability, indicating weaker intrinsic safety alignment. We further demonstrate that native ALMs perform substantially worse than dedicated safeguard models when acting as safety judges. Overall, our findings highlight the necessity of category-aware evaluation and specialized safeguard mechanisms for robust harm mitigation in ALMs.
Abstract（参考訳）: 言語モデル(LM)における安全性の整合性は、信頼できるAIの基本である。しかしながら、異なる利害関係者がアラビア語モデル(ALM)を活用しようとしている一方で、ALMの体系的安全性の評価は、主流の獲得を制限するために、ほとんど未調査のままである。既存の安全ベンチマークとセーフガードモデルは、主に英語中心であり、アラビア自然言語処理(NLP)システムに適用可能であり、きめ細かいカテゴリレベルの安全性の脆弱性を隠蔽している。本稿では,MLCommons Safety Hazard Taxonomy(MLCommons Safety Hazard Taxonomy)に適合する12のカテゴリにまたがる8,170ドルのプロンプトを含むALMの安全性を評価するための統一ベンチマークであるSalamaBenchを紹介する。 AIフィルタリングと多段階のヒューマン検証を含む厳格なパイプラインを通じて異種データセットを調和させることで、SalamaBenchは標準化されたカテゴリ対応の安全性評価を可能にする。このベンチマークを用いて,Fanar 1, 2, ALLaM 2, Falcon H1R, およびJais 2を含む5種類の最先端ALMを, 個人ガードモデル, 多数投票集約, 人手によるゴールドラベルに対する検証を含む複数のセーフガード構成下で評価した。 Fanar 2は攻撃成功率が最も低いが、その堅牢性は特定の害ドメイン間で不均一である。対照的に、Jais 2は一貫して高い脆弱性を示しており、本質的な安全性のアライメントが弱いことを示している。さらに, ALM が安全審査員として機能する際, 専用のセーフガードモデルよりも大幅に性能が低下することが実証された。以上の結果から,ALMのロバスト・ハーモティゲーションに対するカテゴリー認識評価と特別な保護機構の必要性が示唆された。

論文の概要: SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

関連論文リスト