論文の概要: Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks
- arxiv url: http://arxiv.org/abs/2506.18543v1
- Date: Mon, 23 Jun 2025 11:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.965957
- Title: Security Assessment of DeepSeek and GPT Series Models against Jailbreak Attacks
- Title(参考訳): 脱獄事件に対するDeepSeekおよびGPTシリーズモデルのセキュリティ評価
- Authors: Xiaodong Wu, Xiangman Li, Jianbing Ni,
- Abstract要約: 本稿では,DeepSeekシリーズモデルの最初の系統的ジェイルブレイク評価について述べる。
HarmBench ベンチマークを用いて GPT-3.5 と GPT-4 を比較した。
- 参考スコア(独自算出の注目度): 9.277492743469235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread deployment of large language models (LLMs) has raised critical concerns over their vulnerability to jailbreak attacks, i.e., adversarial prompts that bypass alignment mechanisms and elicit harmful or policy-violating outputs. While proprietary models like GPT-4 have undergone extensive evaluation, the robustness of emerging open-source alternatives such as DeepSeek remains largely underexplored, despite their growing adoption in real-world applications. In this paper, we present the first systematic jailbreak evaluation of DeepSeek-series models, comparing them with GPT-3.5 and GPT-4 using the HarmBench benchmark. We evaluate seven representative attack strategies across 510 harmful behaviors categorized by both function and semantic domain. Our analysis reveals that DeepSeek's Mixture-of-Experts (MoE) architecture introduces routing sparsity that offers selective robustness against optimization-based attacks such as TAP-T, but leads to significantly higher vulnerability under prompt-based and manually engineered attacks. In contrast, GPT-4 Turbo demonstrates stronger and more consistent safety alignment across diverse behaviors, likely due to its dense Transformer design and reinforcement learning from human feedback. Fine-grained behavioral analysis and case studies further show that DeepSeek often routes adversarial prompts to under-aligned expert modules, resulting in inconsistent refusal behaviors. These findings highlight a fundamental trade-off between architectural efficiency and alignment generalization, emphasizing the need for targeted safety tuning and modular alignment strategies to ensure secure deployment of open-source LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な展開は、ジェイルブレイク攻撃に対する脆弱性、すなわち敵がアライメント機構をバイパスし、有害またはポリシー違反のアウトプットを誘発するという重大な懸念を引き起こしている。
GPT-4のようなプロプライエタリなモデルは広く評価されているが、DeepSeekのような新しいオープンソース代替品のロバスト性は、現実世界のアプリケーションで採用が増えているにもかかわらず、ほとんど調査されていない。
本稿では,HumBenchベンチマークを用いて,DeepSeekシリーズモデルとGPT-3.5およびGPT-4を比較し,最初の系統的ジェイルブレイク評価を行う。
本研究は,機能ドメインと意味ドメインの両方で分類された有害行動510件を対象とした7つの代表的な攻撃戦略を評価する。
我々の分析によると、DeepSeekのMixture-of-Experts (MoE)アーキテクチャは、TAP-Tのような最適化ベースの攻撃に対して選択的に堅牢性を提供するルーティングスポーサリティを導入しているが、プロンプトベースおよび手動による攻撃では、非常に高い脆弱性をもたらす。
対照的に、GPT-4 Turboは、トランスフォーマーの密集した設計と人間からのフィードバックからの強化学習のために、様々な行動にまたがって、より強く、より一貫した安全アライメントを示す。
きめ細かい行動分析とケーススタディにより、DeepSeekは、しばしば敵のプロンプトをアンダーアラインな専門家モジュールにルーティングし、矛盾した拒絶行動をもたらすことが示されている。
これらの知見は、アーキテクチャ効率とアライメントの一般化の基本的なトレードオフを強調し、オープンソースのLCMの安全なデプロイを保証するために、ターゲットとなる安全性チューニングとモジュールアライメント戦略の必要性を強調した。
関連論文リスト
- Exploring the Vulnerability of the Content Moderation Guardrail in Large Language Models via Intent Manipulation [18.37303422539757]
本研究では,意図認識型ガードレールの脆弱性を調査し,大規模言語モデルが暗黙の意図検出能力を示すことを示す。
IntentPromptという2段階のインテントベースのプロンプトリファインメントフレームワークを提案し、まず有害な問い合わせを構造化されたアウトラインに変換し、さらに宣言的なスタイルの物語に再構成する。
われわれのフレームワークは、最先端のジェイルブレイク手法を一貫して上回り、さらに高度なIntent Analysis(IA)とChain-of-Thought(CoT)ベースの防御を回避している。
論文 参考訳(メタデータ) (2025-05-24T06:47:32Z) - Three Minds, One Legend: Jailbreak Large Reasoning Model with Adaptive Stacked Ciphers [14.262681970049172]
Large Reasoning Models (LRMs) は従来のLarge Language Models (LLMs) と比較して優れた論理能力を示している。
SEALは新たなジェイルブレイク攻撃であり、彼らの推論プロセスをオーバーライドし、潜在的な適応アライメントを回避するように設計された適応型暗号化パイプラインを通じてLEMをターゲットにしている。
SEAL は GPT o4-mini の攻撃成功率 80.8% を達成し、最先端のベースラインを27.2% で上回っている。
論文 参考訳(メタデータ) (2025-05-22T05:19:42Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - Turning Logic Against Itself : Probing Model Defenses Through Contrastive Questions [51.51850981481236]
非倫理的反応を引き起こすために、対照的な推論を利用する新しいジェイルブレイク手法であるPOATEを導入する。
PoATEは意味論的に意図に反し、敵のテンプレートと統合し、有害なアウトプットを驚くほど微妙に操る。
これに対応するために、悪意のある意図と理性を検出するためにクエリを分解して、有害な応答を評価し、拒否するIntent-Aware CoTとReverse Thinking CoTを提案する。
論文 参考訳(メタデータ) (2025-01-03T15:40:03Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。