論文の概要: CSSBench: Evaluating the Safety of Lightweight LLMs against Chinese-Specific Adversarial Patterns
- arxiv url: http://arxiv.org/abs/2601.00588v2
- Date: Mon, 05 Jan 2026 04:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 14:31:43.845032
- Title: CSSBench: Evaluating the Safety of Lightweight LLMs against Chinese-Specific Adversarial Patterns
- Title(参考訳): CSSBench:中国固有の敵対的パターンに対する軽量LLMの安全性の評価
- Authors: Zhenhong Zhou, Shilinlu Yan, Chuanpu Liu, Qiankun Li, Kun Wang, Zhigang Zeng,
- Abstract要約: 本研究では,中国における大規模言語モデル(LLM)の安全性を評価するために,CSSBenchを導入した。
私たちのベンチマークでは、違法な活動やコンプライアンス、プライバシーの漏洩、健康と医療の誤報、詐欺と憎悪、公共と政治の安全など、実際の中国のシナリオで一般的な6つのドメインをカバーしています。
以上の結果から,中国固有の対数パターンは軽量LLMにとって重要な課題であることが明らかとなった。
- 参考スコア(独自算出の注目度): 43.09570813322625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly deployed in cost-sensitive and on-device scenarios, and safety guardrails have advanced mainly in English. However, real-world Chinese malicious queries typically conceal intent via homophones, pinyin, symbol-based splitting, and other Chinese-specific patterns. These Chinese-specific adversarial patterns create the safety evaluation gap that is not well captured by existing benchmarks focused on English. This gap is particularly concerning for lightweight models, which may be more vulnerable to such specific adversarial perturbations. To bridge this gap, we introduce the Chinese-Specific Safety Benchmark (CSSBench) that emphasizes these adversarial patterns and evaluates the safety of lightweight LLMs in Chinese. Our benchmark covers six domains that are common in real Chinese scenarios, including illegal activities and compliance, privacy leakage, health and medical misinformation, fraud and hate, adult content, and public and political safety, and organizes queries into multiple task types. We evaluate a set of popular lightweight LLMs and measure over-refusal behavior to assess safety-induced performance degradation. Our results show that the Chinese-specific adversarial pattern is a critical challenge for lightweight LLMs. This benchmark offers a comprehensive evaluation of LLM safety in Chinese, assisting robust deployments in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コスト感受性とオンデバイスシナリオにますます展開され、安全ガードレールは主に英語で進歩している。
しかし、現実の中国の悪質なクエリは、通常、ホモフォン、ピニイン、シンボルベースの分割、その他の中国固有のパターンを通して意図を隠蔽する。
これらの中国固有の敵対的パターンは、英語に焦点を当てた既存のベンチマークではうまく捉えられていない安全評価のギャップを生み出します。
このギャップは特に、そのような特定の敵の摂動に対してより脆弱な軽量モデルに関係している。
このギャップを埋めるために、これらの対立パターンを強調し、中国語の軽量LCMの安全性を評価する中国特種安全ベンチマーク(CSSBench)を導入する。
我々のベンチマークでは、違法な活動やコンプライアンス、プライバシーの漏洩、健康と医療の誤報、詐欺と憎悪、アダルトコンテンツ、そして公共と政治の安全に関する6つのドメインを網羅し、クエリを複数のタスクタイプにまとめています。
我々は,一連の軽量LCMを評価し,安全性による性能劣化を評価するために過度な振舞いを測定した。
以上の結果から,中国固有の対数パターンは軽量LLMにとって重要な課題であることが明らかとなった。
このベンチマークは、中国におけるLCMの安全性を総合的に評価し、実際に堅牢なデプロイメントを支援する。
関連論文リスト
- JailBench: A Comprehensive Chinese Security Assessment Benchmark for Large Language Models [7.020171518136542]
JailBenchは,大規模言語モデル(LLM)の深層脆弱性を評価するための,最初の包括的な中国のベンチマークである。
我々は JailBench 構築に新しい Jailbreak Prompt Engineer (AJPE) フレームワークを採用している。
提案した JailBench は 13 個の LLM に対して広範囲に評価され,ChatGPT に対する攻撃成功率が最も高い。
論文 参考訳(メタデータ) (2025-02-26T08:36:42Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
我々は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語安全ベンチマーク( Chinese safety benchmark, ChineseSafe)を提案する。
ChinaSafeには、4つのクラスに205,034のサンプルと10のサブクラスの安全問題が含まれています。
中国の文脈では、政治的感受性、ポルノグラフィー、変種/ホモフォニックな単語など、いくつかの特別な種類の違法コンテンツを追加します。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。