論文の概要: FanarGuard: A Culturally-Aware Moderation Filter for Arabic Language Models
- arxiv url: http://arxiv.org/abs/2511.18852v1
- Date: Mon, 24 Nov 2025 07:48:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.091334
- Title: FanarGuard: A Culturally-Aware Moderation Filter for Arabic Language Models
- Title(参考訳): FanarGuard:アラビア語モデルのための文化的に認識されたモデレーションフィルタ
- Authors: Masoomali Fatehkia, Enes Altinisik, Husrev Taha Sencar,
- Abstract要約: FanarGuardはアラビア語と英語の安全性と文化的アライメントを評価するバイリンガル・モデレーション・フィルターである。
文化的アライメントを厳格に評価するために、アラビア文化の文脈をターゲットとした最初のベンチマークを開発する。
結果は、FanarGuardがアノテーション間の信頼性よりも人間アノテーションとの強い合意を達成していることを示している。
- 参考スコア(独自算出の注目度): 7.985718270250441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Content moderation filters are a critical safeguard against alignment failures in language models. Yet most existing filters focus narrowly on general safety and overlook cultural context. In this work, we introduce FanarGuard, a bilingual moderation filter that evaluates both safety and cultural alignment in Arabic and English. We construct a dataset of over 468K prompt and response pairs, drawn from synthetic and public datasets, scored by a panel of LLM judges on harmlessness and cultural awareness, and use it to train two filter variants. To rigorously evaluate cultural alignment, we further develop the first benchmark targeting Arabic cultural contexts, comprising over 1k norm-sensitive prompts with LLM-generated responses annotated by human raters. Results show that FanarGuard achieves stronger agreement with human annotations than inter-annotator reliability, while matching the performance of state-of-the-art filters on safety benchmarks. These findings highlight the importance of integrating cultural awareness into moderation and establish FanarGuard as a practical step toward more context-sensitive safeguards.
- Abstract(参考訳): コンテンツモデレーションフィルタは、言語モデルにおけるアライメント障害に対する重要な保護である。
しかし、既存のフィルターのほとんどは、一般的な安全性に焦点を絞って、文化的な文脈を見落としている。
本稿では、アラビア語と英語の安全性と文化的アライメントを評価するバイリンガルモデレーションフィルタであるFanarGuardを紹介する。
我々は,468K以上のプロンプトと応答ペアのデータセットを合成および公開データセットから作成し,LLM審査員のパネルで無害性と文化意識を判定し,それを2種類のフィルタ変種を訓練する。
文化的アライメントを厳格に評価するために, アラビア文化の文脈を対象とする最初のベンチマークを新たに開発し, 1k以上の標準感性プロンプトとLLM生成応答をアノテートした。
その結果,FanarGuardはアノテータ間の信頼性よりも,安全性ベンチマーク上での最先端フィルタの性能に適合しながら,アノテーションとの強い一致を実現していることがわかった。
これらの知見は、モデレーションに文化意識を統合することの重要性を強調し、より文脈に敏感な保護に向けた実践的なステップとしてFanarGuardを確立した。
関連論文リスト
- CultureGuard: Towards Culturally-Aware Dataset and Guard Model for Multilingual Safety Applications [5.151690536714851]
CultureGuardは、文化的に整列した高品質な安全データセットを複数の言語でキュレートするための新しいソリューションです。
提案手法では,文化データ分離,文化データ適応,機械翻訳,品質フィルタリングという,4段階の合成データ生成とフィルタリングパイプラインを導入している。
得られたデータセットであるNemotron-Safety-Guard-Dataset-v3は9言語で386,661のサンプルで構成され、Llama-3.1-Nemotron-Safety-Guard-8B-v3をLoRAベースの微調整で訓練する。
論文 参考訳(メタデータ) (2025-08-03T10:35:05Z) - Multimodal Cultural Safety: Evaluation Frameworks and Alignment Strategies [58.88053690412802]
大規模視覚言語モデル(LVLM)は、観光アシスタントのようなグローバルに分散したアプリケーションにますます導入されている。
CROSSは、LVLMの文化的安全性推論能力を評価するために設計されたベンチマークである。
実験モデルと推論モデルを含む21種類のLVLMを評価した。
論文 参考訳(メタデータ) (2025-05-20T23:20:38Z) - Arabic Dataset for LLM Safeguard Evaluation [62.96160492994489]
本研究では,アラビア語における大言語モデル(LLM)の安全性と,その言語的・文化的複雑さについて考察する。
本稿では, 直接攻撃, 間接攻撃, センシティブな単語による無害な要求を含む5,799の質問からなるアラブ地域固有の安全評価データセットを提案する。
論文 参考訳(メタデータ) (2024-10-22T14:12:43Z) - AceGPT, Localizing Large Language Models in Arabic [73.39989503874634]
本稿では,アラビア語のテキストによる事前学習,ネイティブなアラビア語命令を利用したSFT(Supervised Fine-Tuning),アラビア語のGPT-4応答を含む総合的なソリューションを提案する。
目標は、文化的に認知され、価値に整合したアラビア語のLLMを、多様で応用特有のアラビア語コミュニティのニーズに適応させることである。
論文 参考訳(メタデータ) (2023-09-21T13:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。