論文の概要: Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese
- arxiv url: http://arxiv.org/abs/2605.29667v1
- Date: Thu, 28 May 2026 09:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.137831
- Title: Beyond English and Evasion: A Human-Annotated Multi-Domain Benchmark for High-Stakes LLM Safety Evaluation in Chinese
- Title(参考訳): 英語とエベイジオンを超えて:中国におけるLLM安全性評価のための人手によるマルチドメインベンチマーク
- Authors: Wajdi Zaghouani, Kholoud K. Aldous, Yicheng Gao,
- Abstract要約: ChiSafe-PASは、1,897の中国のプロンプトの人間による注釈付きベンチマークである。
セルフハームと暴力、麻薬と違法取引、詐欺、風刺の4つの高い領域をカバーしている。
本稿では,データセットの設計,アノテーションプロセス,難読化分類について述べる。
- 参考スコア(独自算出の注目度): 1.0221857326642831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When Large Language Models (LLMs) are deployed in Chinese-language settings, a troubling pattern emerges: safety systems that work well in English break down. These systems struggle to cross linguistic and cultural bound-aries, leaving models exposed to adversarial prompts that exploit Chinese-specific evasion techniques, including Pinyin romanization, character decomposition, internet slang, and hedging tone. To address this gap, we introduce ChiSafe-PAS (Chinese Safety Pilot Annotation Set), a human-annotated benchmark of 1,897 adversarial Chinese prompts spanning four high-stakes domains: self-harm and violence, drug and illicit trade, fraud, and satire. Of these, 1,544 entries carry complete gold-standard annotations: a 3-class response label (REFUSE, SAFE-REDIRECT, RESPOND), a nine-category obfuscation taxonomy, a risk-level rating, and annotator rationale. We describe the dataset design, annotation process, and obfuscation taxonomy in detail. Our primary goal is practical: to give the research community a high-quality, culturally grounded resource for benchmarking LLM safety alignment. In doing so, we engage three broader tensions in the field: the blurring boundary between training and evaluation data, the need for domain coverage grounded in real-world risk, and the limits of scale as a substitute for cultural expertise.
- Abstract(参考訳): 大きな言語モデル(LLM)が中国語の設定でデプロイされると、厄介なパターンが現れます。
これらのシステムは言語的・文化的境界を越えるのに苦労し、ピニインのロマン化、文字分解、インターネットスラング、ヘッジトーンなど、中国固有の回避技術を利用する敵のプロンプトに晒されたモデルを残している。
このギャップに対処するため、我々は、中国側が4つの高い領域(自傷と暴力、薬物と違法取引、詐欺、風刺)にまたがる1,897件の人為的注釈付きベンチマークであるChiSafe-PAS(China Safety Pilot Annotation Set)を紹介した。
そのうち1,544項目は、完全なゴールド標準アノテーション(REFUSE、SAFE-REDIRECT、RESPOND)、9カテゴリの難読化分類、リスクレベル評価、アノテーションの理論的根拠である。
本稿では,データセットの設計,アノテーションプロセス,難読化分類について詳述する。
LLMの安全性をベンチマークするための、高品質で文化的に根ざしたリソースを研究コミュニティに提供することです。
トレーニングデータと評価データのあいまいな境界、現実世界のリスクを前提としたドメインカバレッジの必要性、文化的な専門知識の代用としてスケールの限界という3つの大きな緊張関係がある。
関連論文リスト
- IndicSafe: A Benchmark for Evaluating Multilingual LLM Safety in South Asia [0.6978180153516672]
Indic言語12言語を対象に,大規模言語モデル(LLM)の安全性を初めて体系的に評価した。
言語間の合意はわずか12.8%であり、textttSAFEレートは言語間で17%を超えている。
Indicデプロイメントの文化的な安全性評価を可能にする最初のベンチマークである textscIndicSafe をリリースする。
論文 参考訳(メタデータ) (2026-03-18T16:54:07Z) - Improving Methodologies for LLM Evaluations Across Global Languages [19.63570354411416]
このエクササイズは、安全行動が言語によってどのように異なるかを示しています。
また、多言語安全性評価を改善するための洞察も生み出した。
この研究は、先進的なAIシステムの多言語安全テストのための共有フレームワークに向けた最初のステップである。
論文 参考訳(メタデータ) (2026-01-22T07:18:08Z) - CSSBench: Evaluating the Safety of Lightweight LLMs against Chinese-Specific Adversarial Patterns [43.09570813322625]
本研究では,中国における大規模言語モデル(LLM)の安全性を評価するために,CSSBenchを導入した。
私たちのベンチマークでは、違法な活動やコンプライアンス、プライバシーの漏洩、健康と医療の誤報、詐欺と憎悪、公共と政治の安全など、実際の中国のシナリオで一般的な6つのドメインをカバーしています。
以上の結果から,中国固有の対数パターンは軽量LLMにとって重要な課題であることが明らかとなった。
論文 参考訳(メタデータ) (2026-01-02T06:21:41Z) - Toxicity Red-Teaming: Benchmarking LLM Safety in Singapore's Low-Resource Languages [57.059267233093465]
大規模言語モデル(LLM)は自然言語処理を変革しているが、その安全性メカニズムは低リソースで多言語的な設定では未探索のままである。
シンガポールの多様な言語文脈におけるLLM安全性をベンチマークするための新しいデータセットおよび評価フレームワークであるtextsfSGToxicGuardを紹介した。
我々は最先端の多言語LLMによる広範囲な実験を行い、その安全ガードレールの限界を明らかにする。
論文 参考訳(メタデータ) (2025-09-18T08:14:34Z) - MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
我々は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語安全ベンチマーク( Chinese safety benchmark, ChineseSafe)を提案する。
ChinaSafeには、4つのクラスに205,034のサンプルと10のサブクラスの安全問題が含まれています。
中国の文脈では、政治的感受性、ポルノグラフィー、変種/ホモフォニックな単語など、いくつかの特別な種類の違法コンテンツを追加します。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。