論文の概要: Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings
- arxiv url: http://arxiv.org/abs/2503.15092v1
- Date: Wed, 19 Mar 2025 10:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:26:01.986119
- Title: Towards Understanding the Safety Boundaries of DeepSeek Models: Evaluation and Findings
- Title(参考訳): ディープシークモデルの安全性境界の理解に向けて:評価と発見
- Authors: Zonghao Ying, Guangyi Zheng, Yongxin Huang, Deyue Zhang, Wenxin Zhang, Quanchen Zou, Aishan Liu, Xianglong Liu, Dacheng Tao,
- Abstract要約: 本研究は,DeepSeekモデルの最初の包括的安全性評価である。
評価対象は,DeepSeekの最新の大規模言語モデル,マルチモーダル大規模言語モデル,テキスト・ツー・イメージモデルである。
- 参考スコア(独自算出の注目度): 51.65890794988425
- License:
- Abstract: This study presents the first comprehensive safety evaluation of the DeepSeek models, focusing on evaluating the safety risks associated with their generated content. Our evaluation encompasses DeepSeek's latest generation of large language models, multimodal large language models, and text-to-image models, systematically examining their performance regarding unsafe content generation. Notably, we developed a bilingual (Chinese-English) safety evaluation dataset tailored to Chinese sociocultural contexts, enabling a more thorough evaluation of the safety capabilities of Chinese-developed models. Experimental results indicate that despite their strong general capabilities, DeepSeek models exhibit significant safety vulnerabilities across multiple risk dimensions, including algorithmic discrimination and sexual content. These findings provide crucial insights for understanding and improving the safety of large foundation models. Our code is available at https://github.com/NY1024/DeepSeek-Safety-Eval.
- Abstract(参考訳): 本研究では,DeepSeekモデルの最初の総合的安全性評価を行い,生成したコンテンツの安全性リスクの評価に焦点をあてた。
我々の評価は、DeepSeekの最新世代の大規模言語モデル、マルチモーダルな大規模言語モデル、テキスト・ツー・イメージモデルを含み、安全でないコンテンツ生成に関するパフォーマンスを体系的に検証している。
特に,中国社会文化の文脈に合わせたバイリンガル(中国語-英語)の安全性評価データセットを開発し,より徹底的な安全性評価を可能にした。
実験結果から,DeepSeekモデルでは,アルゴリズムによる差別や性的内容など,複数のリスク次元にまたがる重大な安全性上の脆弱性が指摘されている。
これらの知見は,大規模基盤モデルの安全性の理解と改善に重要な洞察を与えるものである。
私たちのコードはhttps://github.com/NY1024/DeepSeek-Safety-Eval.comから入手可能です。
関連論文リスト
- Safety Evaluation of DeepSeek Models in Chinese Contexts [12.297396865203973]
本研究では,中国固有の安全性評価ベンチマークであるCHiSafetyBenchを紹介する。
このベンチマークは、中国の文脈におけるDeepSeek-R1とDeepSeek-V3の安全性を体系的に評価する。
実験結果は、これらの2つのモデルの中国の文脈における欠陥を定量化し、その後の改善の鍵となる洞察を与える。
論文 参考訳(メタデータ) (2025-02-16T14:05:54Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - SAFETY-J: Evaluating Safety with Critique [24.723999605458832]
SAFETY-Jは、英語と中国語のための二言語生成安全評価器であり、批判に基づく判断である。
人間の介入を最小限に抑えて批評の質を客観的に評価する自動メタ評価ベンチマークを構築した。
SAFETY-Jはよりニュアンスで正確な安全性評価を提供し、複雑なコンテンツシナリオにおける批判的品質と予測信頼性の両面を向上することを示した。
論文 参考訳(メタデータ) (2024-07-24T08:04:00Z) - CHiSafetyBench: A Chinese Hierarchical Safety Benchmark for Large Language Models [7.054112690519648]
CHiSafetyBenchは、リスクのあるコンテンツを特定し、中国のコンテキストにおけるリスクのある質問への回答を拒否する大きな言語モデルの能力を評価するための安全ベンチマークである。
このデータセットは、複数の選択質問と質問回答、リスクコンテンツ識別の観点からのLSMの評価、リスクのある質問への回答を拒否する能力の2つのタスクからなる。
本実験により, 各種安全領域における各種モデルの各種性能が明らかとなり, 中国における安全能力向上の可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-14T06:47:40Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Towards Safer Generative Language Models: A Survey on Safety Risks,
Evaluations, and Improvements [76.80453043969209]
本調査では,大規模モデルに関する安全研究の枠組みについて述べる。
まず、広範囲にわたる安全問題を導入し、その後、大型モデルの安全性評価手法を掘り下げる。
トレーニングからデプロイメントまで,大規模なモデルの安全性を高めるための戦略について検討する。
論文 参考訳(メタデータ) (2023-02-18T09:32:55Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。