論文の概要: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- arxiv url: http://arxiv.org/abs/2310.05818v1
- Date: Mon, 9 Oct 2023 16:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:38:07.792626
- Title: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- Title(参考訳): sc-safety - 中国語の大規模言語モデルに対するマルチラウンドオープンエンド質問対談安全ベンチマーク
- Authors: Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue
- Abstract要約: 大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
- 参考スコア(独自算出の注目度): 21.893992064105085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), like ChatGPT and GPT-4, have demonstrated
remarkable abilities in natural language understanding and generation. However,
alongside their positive impact on our daily tasks, they can also produce
harmful content that negatively affects societal perceptions. To systematically
assess the safety of Chinese LLMs, we introduce SuperCLUE-Safety (SC-Safety) -
a multi-round adversarial benchmark with 4912 open-ended questions covering
more than 20 safety sub-dimensions. Adversarial human-model interactions and
conversations significantly increase the challenges compared to existing
methods. Experiments on 13 major LLMs supporting Chinese yield the following
insights: 1) Closed-source models outperform open-sourced ones in terms of
safety; 2) Models released from China demonstrate comparable safety levels to
LLMs like GPT-3.5-turbo; 3) Some smaller models with 6B-13B parameters can
compete effectively in terms of safety. By introducing SC-Safety, we aim to
promote collaborative efforts to create safer and more trustworthy LLMs. The
benchmark and findings provide guidance on model selection. Our benchmark can
be found at https://www.CLUEbenchmarks.com
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。
しかし、日々のタスクに対するポジティブな影響に加えて、社会的な知覚に悪影響を及ぼす有害なコンテンツも作り出せる。
中国におけるLLMの安全性を体系的に評価するために,20以上の安全サブ次元をカバーする4912のオープンエンド質問を用いたマルチラウンド対向ベンチマークであるSuperCLUE-Safety(SC-Safety)を導入する。
対人モデル相互作用と会話は、既存の手法と比較して、課題を著しく増加させる。
中国を支えている13のLLM実験は以下の知見を得た。
1) クローズドソースモデルは,安全の観点からオープンソースモデルを上回る。
2)中国から発売されたモデルは,gpt-3.5-turboのようなllmと同等の安全性を示す。
3)6B-13Bパラメータを持つ小型モデルでは安全性の観点から効果的に競合できる。
SC-Safetyを導入することで、より安全で信頼性の高いLCMを作成するための協力的な取り組みを促進することを目指している。
ベンチマークと調査結果はモデル選択に関するガイダンスを提供する。
我々のベンチマークはhttps://www.CLUEbenchmarks.comで見ることができる。
関連論文リスト
- Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。
実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T04:23:33Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
本研究は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語の安全性ベンチマーク( ChineseSafe)を提案する。
中国のインターネットコンテンツモデレーションの規制に合わせるために、ChinaSafeには4つのクラスと10のサブクラスにわたる205,034のサンプルが含まれています。
その結果、多くのLCMが特定の種類の安全問題に対する脆弱性を示しており、中国の法的なリスクにつながっていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。