論文の概要: Safety Assessment of Chinese Large Language Models
- arxiv url: http://arxiv.org/abs/2304.10436v1
- Date: Thu, 20 Apr 2023 16:27:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 12:26:02.520048
- Title: Safety Assessment of Chinese Large Language Models
- Title(参考訳): 中国語大言語モデルの安全性評価
- Authors: Hao Sun, Zhexin Zhang, Jiawen Deng, Jiale Cheng, Minlie Huang
- Abstract要約: 大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
- 参考スコア(独自算出の注目度): 51.83369778259149
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid popularity of large language models such as ChatGPT and GPT-4,
a growing amount of attention is paid to their safety concerns. These models
may generate insulting and discriminatory content, reflect incorrect social
values, and may be used for malicious purposes such as fraud and dissemination
of misleading information. Evaluating and enhancing their safety is
particularly essential for the wide application of large language models
(LLMs). To further promote the safe deployment of LLMs, we develop a Chinese
LLM safety assessment benchmark. Our benchmark explores the comprehensive
safety performance of LLMs from two perspectives: 8 kinds of typical safety
scenarios and 6 types of more challenging instruction attacks. Our benchmark is
based on a straightforward process in which it provides the test prompts and
evaluates the safety of the generated responses from the evaluated model. In
evaluation, we utilize the LLM's strong evaluation ability and develop it as a
safety evaluator by prompting. On top of this benchmark, we conduct safety
assessments and analyze 15 LLMs including the OpenAI GPT series and other
well-known Chinese LLMs, where we observe some interesting findings. For
example, we find that instruction attacks are more likely to expose safety
issues of all LLMs. Moreover, to promote the development and deployment of
safe, responsible, and ethical AI, we publicly release SafetyPrompts including
100k augmented prompts and responses by LLMs.
- Abstract(参考訳): ChatGPTやGPT-4といった大規模言語モデルの急速な普及に伴い、安全上の懸念に対して注意が払われている。
これらのモデルは侮辱や差別的な内容を生み出し、誤った社会的価値観を反映し、詐欺や誤解を招く情報の拡散といった悪意ある目的に使用できる。
大規模言語モデル(LLM)の幅広い応用には,安全性の評価と向上が不可欠である。
LLMの安全な展開を促進するため,中国のLLM安全性評価ベンチマークを開発した。
8種類の典型的な安全シナリオと6種類のより困難な命令攻撃という2つの視点から、llmsの総合的な安全性性能について検討した。
ベンチマークは、テストプロンプトを提供し、評価したモデルから生成された応答の安全性を評価する、簡単なプロセスに基づいています。
評価では,LSMの強力な評価能力を活用し,安全評価装置として開発する。
このベンチマークに加えて,安全性評価を行い,openai gpt シリーズなど中国の著名な llm を含む15 llm を分析し,興味深い知見を得た。
例えば、命令攻撃は全てのLLMの安全性の問題を明らかにする傾向にある。
さらに、安全で責任があり倫理的なAIの開発と展開を促進するために、LLMによる100万の強化プロンプトや応答を含むセーフティプロンプトを公開します。
関連論文リスト
- SG-Bench: Evaluating LLM Safety Generalization Across Diverse Tasks and Prompt Types [21.683010095703832]
本研究では,大規模言語モデル(LLM)の安全性を様々なタスクやプロンプトタイプにまたがる一般化を評価するための新しいベンチマークを開発する。
このベンチマークは、生成的および識別的評価タスクを統合し、LLMの安全性に対する迅速なエンジニアリングとジェイルブレイクの影響を調べるための拡張データを含む。
評価の結果,ほとんどのLDMは生成的タスクよりも差別的タスクが悪く,プロンプトに非常に敏感であり,安全アライメントの一般化が不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-10-29T11:47:01Z) - CFSafety: Comprehensive Fine-grained Safety Assessment for LLMs [4.441767341563709]
5つの古典的安全シナリオと5種類の命令攻撃を統合した安全評価ベンチマークCFSafetyを導入する。
このテストセットは、大規模言語モデル(LLM)の自然言語生成能力を評価するために使用された。
その結果, GPT-4は安全性能に優れていたが, このモデルを含むLLMの安全性は改善が必要であることがわかった。
論文 参考訳(メタデータ) (2024-10-29T03:25:20Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - S-Eval: Automatic and Adaptive Test Generation for Benchmarking Safety Evaluation of Large Language Models [47.65210244674764]
大規模な言語モデルは、その革命的な能力にかなりの注目を集めている。
安全性に関する懸念も高まっている。
S-Evalは,多次元かつオープンな安全評価ベンチマークである。
論文 参考訳(メタデータ) (2024-05-23T05:34:31Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - SafetyBench: Evaluating the Safety of Large Language Models [54.878612385780805]
SafetyBenchは、大規模言語モデル(LLM)の安全性を評価するための包括的なベンチマークである。
11,435 の多様な選択質問が 7 つの異なるカテゴリーの安全問題にまたがっている。
ゼロショット設定と少数ショット設定の両方で、中国語と英語のLLMを25回以上テストしたところ、GPT-4よりも大幅にパフォーマンス上の優位性を示しました。
論文 参考訳(メタデータ) (2023-09-13T15:56:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。