論文の概要: Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2509.15260v1
- Date: Thu, 18 Sep 2025 08:14:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.829288
- Title: Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages
- Title(参考訳): Toxicity Red-Teaming: シンガポールの低リソース言語におけるLLM安全性のベンチマーク
- Authors: Yujia Hu, Ming Shan Hee, Preslav Nakov, Roy Ka-Wei Lee,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
- 参考スコア(独自算出の注目度): 57.059267233093465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of Large Language Models (LLMs) has transformed natural language processing; however, their safety mechanisms remain under-explored in low-resource, multilingual settings. Here, we aim to bridge this gap. In particular, we introduce \textsf{SGToxicGuard}, a novel dataset and evaluation framework for benchmarking LLM safety in Singapore's diverse linguistic context, including Singlish, Chinese, Malay, and Tamil. SGToxicGuard adopts a red-teaming approach to systematically probe LLM vulnerabilities in three real-world scenarios: \textit{conversation}, \textit{question-answering}, and \textit{content composition}. We conduct extensive experiments with state-of-the-art multilingual LLMs, and the results uncover critical gaps in their safety guardrails. By offering actionable insights into cultural sensitivity and toxicity mitigation, we lay the foundation for safer and more inclusive AI systems in linguistically diverse environments.\footnote{Link to the dataset: https://github.com/Social-AI-Studio/SGToxicGuard.} \textcolor{red}{Disclaimer: This paper contains sensitive content that may be disturbing to some readers.}
- Abstract(参考訳): LLM(Large Language Models)の進歩は自然言語処理に変化をもたらしたが、その安全性メカニズムは低リソースで多言語的な設定で未探索のままである。
ここでは、このギャップを埋めることを目指しています。
特に,シンガポールの多様な言語文脈において,LLMの安全性をベンチマークするための新しいデータセットと評価フレームワークである \textsf{SGToxicGuard} を紹介した。
SGToxicGuardは,3つの現実シナリオ – \textit{conversation}, \textit{question-answering}, \textit{content composition} – において,LLM脆弱性を体系的に調査する赤チーム方式を採用している。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
文化的感受性と毒性の緩和に関する実用的な洞察を提供することにより、言語的に多様な環境において、より安全で包括的なAIシステムの基礎を築いた。
データセットへのリンク:https://github.com/Social-AI-Studio/SGToxicGuard。
図1. } \textcolor{red}{Disclaimer: この論文には、一部の読者にとって邪魔になる可能性のあるセンシティブなコンテンツが含まれています。
※
関連論文リスト
- RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages [3.7678366606419345]
RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
論文 参考訳(メタデータ) (2025-07-08T13:37:25Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Benchmarking LLM Guardrails in Handling Multilingual Toxicity [57.296161186129545]
7つのデータセットと10以上の言語にまたがる包括的な多言語テストスイートを導入し、最先端ガードレールのパフォーマンスをベンチマークする。
近年の脱獄技術に対するガードレールの弾力性について検討し,ガードレールの性能に及ぼすコンテキスト内安全ポリシーと言語資源の可利用性の影響について検討した。
以上の結果から, 既存のガードレールは多言語毒性の処理に依然として効果がなく, 脱獄プロンプトに対する堅牢性が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T15:51:24Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。