論文の概要: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- arxiv url: http://arxiv.org/abs/2310.05818v1
- Date: Mon, 9 Oct 2023 16:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:38:07.792626
- Title: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- Title(参考訳): sc-safety - 中国語の大規模言語モデルに対するマルチラウンドオープンエンド質問対談安全ベンチマーク
- Authors: Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue
- Abstract要約: 大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
- 参考スコア(独自算出の注目度): 21.893992064105085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), like ChatGPT and GPT-4, have demonstrated
remarkable abilities in natural language understanding and generation. However,
alongside their positive impact on our daily tasks, they can also produce
harmful content that negatively affects societal perceptions. To systematically
assess the safety of Chinese LLMs, we introduce SuperCLUE-Safety (SC-Safety) -
a multi-round adversarial benchmark with 4912 open-ended questions covering
more than 20 safety sub-dimensions. Adversarial human-model interactions and
conversations significantly increase the challenges compared to existing
methods. Experiments on 13 major LLMs supporting Chinese yield the following
insights: 1) Closed-source models outperform open-sourced ones in terms of
safety; 2) Models released from China demonstrate comparable safety levels to
LLMs like GPT-3.5-turbo; 3) Some smaller models with 6B-13B parameters can
compete effectively in terms of safety. By introducing SC-Safety, we aim to
promote collaborative efforts to create safer and more trustworthy LLMs. The
benchmark and findings provide guidance on model selection. Our benchmark can
be found at https://www.CLUEbenchmarks.com
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。
しかし、日々のタスクに対するポジティブな影響に加えて、社会的な知覚に悪影響を及ぼす有害なコンテンツも作り出せる。
中国におけるLLMの安全性を体系的に評価するために,20以上の安全サブ次元をカバーする4912のオープンエンド質問を用いたマルチラウンド対向ベンチマークであるSuperCLUE-Safety(SC-Safety)を導入する。
対人モデル相互作用と会話は、既存の手法と比較して、課題を著しく増加させる。
中国を支えている13のLLM実験は以下の知見を得た。
1) クローズドソースモデルは,安全の観点からオープンソースモデルを上回る。
2)中国から発売されたモデルは,gpt-3.5-turboのようなllmと同等の安全性を示す。
3)6B-13Bパラメータを持つ小型モデルでは安全性の観点から効果的に競合できる。
SC-Safetyを導入することで、より安全で信頼性の高いLCMを作成するための協力的な取り組みを促進することを目指している。
ベンチマークと調査結果はモデル選択に関するガイダンスを提供する。
我々のベンチマークはhttps://www.CLUEbenchmarks.comで見ることができる。
関連論文リスト
- ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Developing Safe and Responsible Large Language Models -- A Comprehensive Framework [1.980639720136382]
SR$_textLLM$は、潜在的に安全でないコンテンツを識別し、良質なバリエーションを生成するように設計されている。
命令ベースおよびパラメータ効率の良い微調整方式を採用している。
安全対策が実施されると、安全なコンテンツの生産が大幅に改善された。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - A Chinese Dataset for Evaluating the Safeguards in Large Language Models [48.18098860396162]
大型言語モデル(LLM)は有害な応答を生み出す。
本稿では,中国のLLMの安全性評価のためのデータセットを提案する。
次に、偽陰性例と偽陽性例をよりよく識別するために使用できる他の2つのシナリオに拡張する。
論文 参考訳(メタデータ) (2024-02-19T14:56:18Z) - SALAD-Bench: A Hierarchical and Comprehensive Safety Benchmark for Large
Language Models [112.46733790998024]
SALAD-Benchは、大規模言語モデル(LLM)を評価するために特別に設計された安全ベンチマークである。
それは、その大規模な、豊富な多様性、三つのレベルにまたがる複雑な分類、多目的機能を通じて、従来のベンチマークを超越している。
論文 参考訳(メタデータ) (2024-02-07T17:33:54Z) - All Languages Matter: On the Multilingual Safety of Large Language
Models [101.31394141244294]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models with
Multiple Choice Questions [56.70459851230943]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。