論文の概要: SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models
- arxiv url: http://arxiv.org/abs/2603.04410v1
- Date: Tue, 03 Feb 2026 12:13:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.187781
- Title: SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models
- Title(参考訳): SalamahBench: アラビア語モデルの標準化された安全性評価を目指して
- Authors: Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh, Ihsen Alouani, Mohammed E. Fouda,
- Abstract要約: 本稿ではアラビア語モデル(ALM)の安全性を評価する統一ベンチマークであるSalamaBenchを紹介する。
このベンチマークを用いて,Fanar 1,2,ALLaM 2,Falcon H1R,Jais 2の5つの最先端ALMを複数のセーフガード構成で評価した。
- 参考スコア(独自算出の注目度): 6.0860786631767185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety alignment in Language Models (LMs) is fundamental for trustworthy AI. However, while different stakeholders are trying to leverage Arabic Language Models (ALMs), systematic safety evaluation of ALMs remains largely underexplored, limiting their mainstream uptake. Existing safety benchmarks and safeguard models are predominantly English-centric, limiting their applicability to Arabic Natural Language Processing (NLP) systems and obscuring fine-grained, category-level safety vulnerabilities. This paper introduces SalamaBench, a unified benchmark for evaluating the safety of ALMs, comprising $8,170$ prompts across $12$ different categories aligned with the MLCommons Safety Hazard Taxonomy. Constructed by harmonizing heterogeneous datasets through a rigorous pipeline involving AI filtering and multi-stage human verification, SalamaBench enables standardized, category-aware safety evaluation. Using this benchmark, we evaluate five state-of-the-art ALMs, including Fanar 1 and 2, ALLaM 2, Falcon H1R, and Jais 2, under multiple safeguard configurations, including individual guard models, majority-vote aggregation, and validation against human-annotated gold labels. Our results reveal substantial variation in safety alignment: while Fanar 2 achieves the lowest aggregate attack success rates, its robustness is uneven across specific harm domains. In contrast, Jais 2 consistently exhibits elevated vulnerability, indicating weaker intrinsic safety alignment. We further demonstrate that native ALMs perform substantially worse than dedicated safeguard models when acting as safety judges. Overall, our findings highlight the necessity of category-aware evaluation and specialized safeguard mechanisms for robust harm mitigation in ALMs.
- Abstract(参考訳): 言語モデル(LM)における安全性の整合性は、信頼できるAIの基本である。
しかしながら、異なる利害関係者がアラビア語モデル(ALM)を活用しようとしている一方で、ALMの体系的安全性の評価は、主流の獲得を制限するために、ほとんど未調査のままである。
既存の安全ベンチマークとセーフガードモデルは、主に英語中心であり、アラビア自然言語処理(NLP)システムに適用可能であり、きめ細かいカテゴリレベルの安全性の脆弱性を隠蔽している。
本稿では,MLCommons Safety Hazard Taxonomy(MLCommons Safety Hazard Taxonomy)に適合する12のカテゴリにまたがる8,170ドルのプロンプトを含むALMの安全性を評価するための統一ベンチマークであるSalamaBenchを紹介する。
AIフィルタリングと多段階のヒューマン検証を含む厳格なパイプラインを通じて異種データセットを調和させることで、SalamaBenchは標準化されたカテゴリ対応の安全性評価を可能にする。
このベンチマークを用いて,Fanar 1, 2, ALLaM 2, Falcon H1R, およびJais 2を含む5種類の最先端ALMを, 個人ガードモデル, 多数投票集約, 人手によるゴールドラベルに対する検証を含む複数のセーフガード構成下で評価した。
Fanar 2は攻撃成功率が最も低いが、その堅牢性は特定の害ドメイン間で不均一である。
対照的に、Jais 2は一貫して高い脆弱性を示しており、本質的な安全性のアライメントが弱いことを示している。
さらに, ALM が安全審査員として機能する際, 専用のセーフガードモデルよりも大幅に性能が低下することが実証された。
以上の結果から,ALMのロバスト・ハーモティゲーションに対するカテゴリー認識評価と特別な保護機構の必要性が示唆された。
関連論文リスト
- A Safety Report on GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, and Seedream 4.5 [101.4233736714284]
大規模言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)は、言語とビジョンをまたいだ推論、認識、生成において大きな進歩をもたらした。
GPT-5.2, Gemini 3 Pro, Qwen3-VL, Grok 4.1 Fast, Nano Banana Pro, Seedream 4.5-assesing each across language, vision- language and image generation。
論文 参考訳(メタデータ) (2026-01-15T15:52:52Z) - OutSafe-Bench: A Benchmark for Multimodal Offensive Content Detection in Large Language Models [54.80460603255789]
マルチモーダル時代に設計された,最も包括的なコンテンツ安全性評価テストスイートであるOutSafe-Benchを紹介する。
OutSafe-Benchには、4つのモダリティにまたがる大規模なデータセットが含まれており、18,000以上のバイリンガル(中国語と英語)テキストプロンプト、4500のイメージ、450のオーディオクリップ、450のビデオが9つの重要なコンテンツリスクカテゴリで体系的に注釈付けされている。
このデータセットに加えて,多次元クロスリスクスコア(Multidimensional Cross Risk Score, MCRS)も導入した。
論文 参考訳(メタデータ) (2025-11-13T13:18:27Z) - Qwen3Guard Technical Report [127.69960525219051]
Qwen3Guardは、多言語安全ガードレールモデルである。
生成的Qwen3Guardは、きめ細かい三級判定を可能にする命令追従タスクとして安全分類をキャストする。
Stream Qwen3Guardは、リアルタイム安全監視のためのトークンレベルの分類ヘッドを導入している。
論文 参考訳(メタデータ) (2025-10-16T04:00:18Z) - GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - aiXamine: Simplified LLM Safety and Security [7.933485586826888]
安全とセキュリティのための総合的なブラックボックス評価プラットフォームであるaiXamineについて紹介する。
AiXamineは40以上のテスト(ベンチマーク)を、特定の安全性とセキュリティをターゲットとした8つの重要なサービスに統合する。
プラットフォームは、評価結果をモデル毎の1つの詳細なレポートに集約し、モデルパフォーマンス、テスト例、リッチな視覚化を提供する。
論文 参考訳(メタデータ) (2025-04-21T09:26:05Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。