論文の概要: SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures
- arxiv url: http://arxiv.org/abs/2512.05501v1
- Date: Fri, 05 Dec 2025 07:57:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.945166
- Title: SEA-SafeguardBench: Evaluating AI Safety in SEA Languages and Cultures
- Title(参考訳): SEA-SafeguardBench: SEA言語と文化におけるAI安全性の評価
- Authors: Panuthep Tasawong, Jian Gang Ngui, Alham Fikri Aji, Trevor Cohn, Peerat Limkonchotiwat,
- Abstract要約: 既存のマルチ言語安全ベンチマークは、しばしば機械翻訳された英語データに依存している。
SEA-SafeguardBenchは,SEAの最初の人間認証安全ベンチマークである。
8つの言語、21,640のサンプル、および3つのサブセット(ジェネラル、イン・ザ・ワイルド、コンテンツ生成)をカバーする。
- 参考スコア(独自算出の注目度): 36.95168918567729
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safeguard models help large language models (LLMs) detect and block harmful content, but most evaluations remain English-centric and overlook linguistic and cultural diversity. Existing multilingual safety benchmarks often rely on machine-translated English data, which fails to capture nuances in low-resource languages. Southeast Asian (SEA) languages are underrepresented despite the region's linguistic diversity and unique safety concerns, from culturally sensitive political speech to region-specific misinformation. Addressing these gaps requires benchmarks that are natively authored to reflect local norms and harm scenarios. We introduce SEA-SafeguardBench, the first human-verified safety benchmark for SEA, covering eight languages, 21,640 samples, across three subsets: general, in-the-wild, and content generation. The experimental results from our benchmark demonstrate that even state-of-the-art LLMs and guardrails are challenged by SEA cultural and harm scenarios and underperform when compared to English texts.
- Abstract(参考訳): 保護ガードモデルは、大きな言語モデル(LLM)が有害なコンテンツを検出し、ブロックするのに役立つが、ほとんどの評価は英語中心であり、言語と文化の多様性を見落としている。
既存のマルチランガル安全ベンチマークは、しばしば機械翻訳された英語データに依存しており、低リソース言語のニュアンスをキャプチャできない。
東南アジア(SEA)言語は、文化に敏感な政治演説から地域固有の誤情報まで、地域の言語多様性とユニークな安全上の懸念にもかかわらず、あまり表現されていない。
これらのギャップに対処するには、ローカルな規範と害シナリオを反映するようにネイティブに記述されたベンチマークが必要である。
SEAの最初の人間認証安全ベンチマークであるSEA-SafeguardBenchは、8つの言語、21,640のサンプルを3つのサブセットでカバーしている。
本ベンチマークの結果から,現在最先端のLLMやガードレールでさえ,SEAの文化的・有害シナリオや,英語のテキストと比較した場合の過小評価に挑戦していることが明らかとなった。
関連論文リスト
- LinguaSafe: A Comprehensive Multilingual Safety Benchmark for Large Language Models [22.273388934888278]
私たちのデータセットは、ハンガリー語からマレー語まで、12言語で45万のエントリで構成されています。
我々のベンチマークは、詳細な安全性評価のための総合的なメトリクススイートを提供する。
論文 参考訳(メタデータ) (2025-08-18T08:59:01Z) - RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Qorgau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts [40.0358736497799]
大規模言語モデル(LLM)は有害なコンテンツを生成する可能性があることが知られている。
本稿では,カザフ語とロシア語の安全性評価に特化して設計された新しいデータセットであるQorgauを紹介する。
論文 参考訳(メタデータ) (2025-02-19T11:33:22Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。