論文の概要: ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.18491v1
- Date: Thu, 24 Oct 2024 07:25:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:44:04.414181
- Title: ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models
- Title(参考訳): 中国:大規模言語モデルの安全性を評価するための中国のベンチマーク
- Authors: Hengxiang Zhang, Hongfu Gao, Qiang Hu, Guanhua Chen, Lili Yang, Bingyi Jing, Hongxin Wei, Bing Wang, Haifeng Bai, Lei Yang,
- Abstract要約: 本研究は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語の安全性ベンチマーク( ChineseSafe)を提案する。
中国のインターネットコンテンツモデレーションの規制に合わせるために、ChinaSafeには4つのクラスと10のサブクラスにわたる205,034のサンプルが含まれています。
その結果、多くのLCMが特定の種類の安全問題に対する脆弱性を示しており、中国の法的なリスクにつながっていることが明らかとなった。
- 参考スコア(独自算出の注目度): 13.911977148887873
- License:
- Abstract: With the rapid development of Large language models (LLMs), understanding the capabilities of LLMs in identifying unsafe content has become increasingly important. While previous works have introduced several benchmarks to evaluate the safety risk of LLMs, the community still has a limited understanding of current LLMs' capability to recognize illegal and unsafe content in Chinese contexts. In this work, we present a Chinese safety benchmark (ChineseSafe) to facilitate research on the content safety of large language models. To align with the regulations for Chinese Internet content moderation, our ChineseSafe contains 205,034 examples across 4 classes and 10 sub-classes of safety issues. For Chinese contexts, we add several special types of illegal content: political sensitivity, pornography, and variant/homophonic words. Moreover, we employ two methods to evaluate the legal risks of popular LLMs, including open-sourced models and APIs. The results reveal that many LLMs exhibit vulnerability to certain types of safety issues, leading to legal risks in China. Our work provides a guideline for developers and researchers to facilitate the safety of LLMs. Our results are also available at https://huggingface.co/spaces/SUSTech/ChineseSafe-Benchmark.
- Abstract(参考訳): LLM(Large Language Model)の急速な発展に伴い、安全でないコンテンツの識別におけるLLMの能力の理解がますます重要になっている。
以前の研究では、LLMの安全性のリスクを評価するためのベンチマークがいくつか導入されていたが、中国の文脈で違法で安全でないコンテンツを認識できる現在のLLMの能力について、コミュニティはまだ限定的な理解しか得られていない。
本研究では,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語の安全性ベンチマーク( ChineseSafe)を提案する。
中国のインターネットコンテンツモデレーションの規制に合わせるために、ChinaSafeには4つのクラスと10のサブクラスにわたる205,034のサンプルが含まれています。
中国の文脈では、政治的感受性、ポルノグラフィー、変種/ホモフォニックな単語など、いくつかの特別な種類の違法コンテンツを追加します。
さらに、我々は、オープンソースモデルやAPIを含む、人気のあるLCMの法的リスクを評価するために、2つの方法を採用している。
その結果、多くのLCMが特定の種類の安全問題に対する脆弱性を示しており、中国の法的なリスクにつながっていることが明らかとなった。
我々の研究は、開発者や研究者がLLMの安全性を促進するためのガイドラインを提供する。
私たちの結果はhttps://huggingface.co/spaces/SUSTech/ ChineseSafe-Benchmarkでも公開されています。
関連論文リスト
- CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [46.43476815725323]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。
我々は、意図しないシナリオと意図的なシナリオの2つを考えます。
安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:44:06Z) - SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese [21.893992064105085]
大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
論文 参考訳(メタデータ) (2023-10-09T16:03:22Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。