論文の概要: RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2507.05980v1
- Date: Tue, 08 Jul 2025 13:37:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.137914
- Title: RabakBench: Scaling Human Annotations to Construct Localized Multilingual Safety Benchmarks for Low-Resource Languages
- Title(参考訳): RabakBench: 低リソース言語のためのローカライズされたマルチ言語安全ベンチマークを構築するためのヒューマンアノテーションのスケーリング
- Authors: Gabriel Chua, Leanne Tan, Ziyu Ge, Roy Ka-Wei Lee,
- Abstract要約: RabakBenchはシンガポール独自の言語コンテキストにローカライズされた新しい多言語安全ベンチマークである。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
- 参考スコア(独自算出の注目度): 3.7678366606419345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) and their safety classifiers often perform poorly on low-resource languages due to limited training data and evaluation benchmarks. This paper introduces RabakBench, a new multilingual safety benchmark localized to Singapore's unique linguistic context, covering Singlish, Chinese, Malay, and Tamil. RabakBench is constructed through a scalable three-stage pipeline: (i) Generate - adversarial example generation by augmenting real Singlish web content with LLM-driven red teaming; (ii) Label - semi-automated multi-label safety annotation using majority-voted LLM labelers aligned with human judgments; and (iii) Translate - high-fidelity translation preserving linguistic nuance and toxicity across languages. The final dataset comprises over 5,000 safety-labeled examples across four languages and six fine-grained safety categories with severity levels. Evaluations of 11 popular open-source and closed-source guardrail classifiers reveal significant performance degradation. RabakBench not only enables robust safety evaluation in Southeast Asian multilingual settings but also offers a reproducible framework for building localized safety datasets in low-resource environments. The benchmark dataset, including the human-verified translations, and evaluation code are publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)とその安全性分類器は、限られたトレーニングデータと評価ベンチマークのため、低リソース言語では性能が劣ることが多い。
本稿では,シンガポールの独自の言語文脈にローカライズされた新しい多言語安全ベンチマークであるRabakBenchを紹介し,Singlish,中国語,マレー語,タミル語について紹介する。
RabakBenchはスケーラブルな3段階パイプラインで構築されています。
i) LLM によるレッドチームによる実 Singlish Web コンテンツの拡大による逆例生成
(ii)LLMラベルを人的判断に合わせる半自動多ラベル安全アノテーション
(iii)翻訳 言語間のニュアンスと毒性を保持する高忠実な翻訳。
最終データセットは、4つの言語にわたる5000以上の安全ラベル付き例と、深刻度レベルを持つ6つのきめ細かい安全カテゴリで構成されている。
11の人気のあるオープンソースおよびクローズドソースガードレール分類器の評価は、大幅な性能劣化を示す。
RabakBenchは、東南アジアの多言語環境で堅牢な安全性評価を可能にするだけでなく、ローリソース環境でローカライズされた安全データセットを構築するための再現可能なフレームワークも提供する。
人間の検証された翻訳や評価コードを含むベンチマークデータセットが公開されている。
関連論文リスト
- MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - PolyGuard: A Multilingual Safety Moderation Tool for 17 Languages [27.318299273902984]
PolyGUARDは、LLM(Large Language Models)世代を保護するための、最先端の多言語安全モデルである。
これまでに17言語にまたがる190万のサンプルを含む、最大規模の多言語安全訓練コーパスで訓練されている。
PolyGUARDPROMPTSは、安全ガードレールの評価のための29Kサンプルを用いた高品質な多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-04-06T06:09:21Z) - LLMs Lost in Translation: M-ALERT uncovers Cross-Linguistic Safety Inconsistencies [63.10843814055688]
M-ALERTは5つの言語における大規模言語モデルの安全性を評価するベンチマークである。
M-ALERTには言語毎に15kの高品質なプロンプトが含まれており、合計で75k、カテゴリワイドアノテーションがある。
39種類のLLMに関する実験は,言語固有の安全性解析の重要性を強調した。
論文 参考訳(メタデータ) (2024-12-19T16:46:54Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Low-Resource Languages Jailbreak GPT-4 [19.97929171158234]
我々の研究は、AIの安全性トレーニングと大規模言語モデル(LLM)のリピートという、言語横断的な脆弱性を明らかにします。
AdvBenchmarkでは、GPT-4は安全でない翻訳された入力に関わり、ユーザを有害な目標の79%に導く実行可能なアイテムを提供する。
他のハイ/ミッドリソース言語は攻撃成功率を著しく低くしているため、言語間の脆弱性は主に低リソース言語に適用される。
論文 参考訳(メタデータ) (2023-10-03T21:30:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。