論文の概要: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- arxiv url: http://arxiv.org/abs/2310.05818v1
- Date: Mon, 9 Oct 2023 16:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-11 06:38:07.792626
- Title: SC-Safety: A Multi-round Open-ended Question Adversarial Safety
Benchmark for Large Language Models in Chinese
- Title(参考訳): sc-safety - 中国語の大規模言語モデルに対するマルチラウンドオープンエンド質問対談安全ベンチマーク
- Authors: Liang Xu, Kangkang Zhao, Lei Zhu, Hang Xue
- Abstract要約: 大規模言語モデル(LLM)は、社会的知覚に悪影響を及ぼす有害なコンテンツを生成できる。
SuperCLUE-Safety (SC-Safety) は、20以上の安全サブディメンジョンをカバーする4912のオープンエンド質問を備えたマルチラウンドの敵対的ベンチマークである。
- 参考スコア(独自算出の注目度): 21.893992064105085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), like ChatGPT and GPT-4, have demonstrated
remarkable abilities in natural language understanding and generation. However,
alongside their positive impact on our daily tasks, they can also produce
harmful content that negatively affects societal perceptions. To systematically
assess the safety of Chinese LLMs, we introduce SuperCLUE-Safety (SC-Safety) -
a multi-round adversarial benchmark with 4912 open-ended questions covering
more than 20 safety sub-dimensions. Adversarial human-model interactions and
conversations significantly increase the challenges compared to existing
methods. Experiments on 13 major LLMs supporting Chinese yield the following
insights: 1) Closed-source models outperform open-sourced ones in terms of
safety; 2) Models released from China demonstrate comparable safety levels to
LLMs like GPT-3.5-turbo; 3) Some smaller models with 6B-13B parameters can
compete effectively in terms of safety. By introducing SC-Safety, we aim to
promote collaborative efforts to create safer and more trustworthy LLMs. The
benchmark and findings provide guidance on model selection. Our benchmark can
be found at https://www.CLUEbenchmarks.com
- Abstract(参考訳): ChatGPTやGPT-4のような大規模言語モデル(LLM)は、自然言語の理解と生成において顕著な能力を示している。
しかし、日々のタスクに対するポジティブな影響に加えて、社会的な知覚に悪影響を及ぼす有害なコンテンツも作り出せる。
中国におけるLLMの安全性を体系的に評価するために,20以上の安全サブ次元をカバーする4912のオープンエンド質問を用いたマルチラウンド対向ベンチマークであるSuperCLUE-Safety(SC-Safety)を導入する。
対人モデル相互作用と会話は、既存の手法と比較して、課題を著しく増加させる。
中国を支えている13のLLM実験は以下の知見を得た。
1) クローズドソースモデルは,安全の観点からオープンソースモデルを上回る。
2)中国から発売されたモデルは,gpt-3.5-turboのようなllmと同等の安全性を示す。
3)6B-13Bパラメータを持つ小型モデルでは安全性の観点から効果的に競合できる。
SC-Safetyを導入することで、より安全で信頼性の高いLCMを作成するための協力的な取り組みを促進することを目指している。
ベンチマークと調査結果はモデル選択に関するガイダンスを提供する。
我々のベンチマークはhttps://www.CLUEbenchmarks.comで見ることができる。
関連論文リスト
- CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - ChineseSafe: A Chinese Benchmark for Evaluating Safety in Large Language Models [13.911977148887873]
本研究は,大言語モデルのコンテンツ安全性に関する研究を容易にするため,中国語の安全性ベンチマーク( ChineseSafe)を提案する。
中国のインターネットコンテンツモデレーションの規制に合わせるために、ChinaSafeには4つのクラスと10のサブクラスにわたる205,034のサンプルが含まれています。
その結果、多くのLCMが特定の種類の安全問題に対する脆弱性を示しており、中国の法的なリスクにつながっていることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-24T07:25:29Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal Behaviors [64.9938658716425]
安全でないユーザリクエストを認識して拒否する、大規模な言語モデル(LLM)の既存の評価は、3つの制限に直面している。
まず、既存の手法では、安全でないトピックの粗い粒度を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
第3に、既存の評価は大きなLCMに頼っているため、コストがかかる可能性がある。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - All Languages Matter: On the Multilingual Safety of Large Language Models [96.47607891042523]
我々は、大規模言語モデル(LLM)のための最初の多言語安全ベンチマークを構築した。
XSafetyは、複数の言語ファミリーにまたがる10言語にわたる14種類の一般的な安全問題をカバーしている。
本稿では,ChatGPTの多言語安全性向上のための簡易かつ効果的なプロンプト手法を提案する。
論文 参考訳(メタデータ) (2023-10-02T05:23:34Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。