論文の概要: Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak
- arxiv url: http://arxiv.org/abs/2601.00213v1
- Date: Thu, 01 Jan 2026 05:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.312609
- Title: Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak
- Title(参考訳): LLMにおける過度な安全性の脆弱性: 悪意のあるインテリジェント最適化アルゴリズムの要求とそのジェイルブレイク
- Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin,
- Abstract要約: 本研究では,アルゴリズムの自動設計における大規模言語モデル(LLM)の安全性について検討する。
悪質な最適化アルゴリズム要求60件からなるベンチマークであるMalOptBenchを紹介し,MOBjailbreakを提案する。
このような攻撃に対して、ほとんどのモデルは高い影響を受けており、攻撃成功率は平均83.59%であり、元の有害なプロンプトでは5つ中4.28点である。
- 参考スコア(独自算出の注目度): 27.520381454182147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of large language models (LLMs) has raised growing concerns about their misuse risks and associated safety issues. While prior studies have examined the safety of LLMs in general usage, code generation, and agent-based applications, their vulnerabilities in automated algorithm design remain underexplored. To fill this gap, this study investigates this overlooked safety vulnerability, with a particular focus on intelligent optimization algorithm design, given its prevalent use in complex decision-making scenarios. We introduce MalOptBench, a benchmark consisting of 60 malicious optimization algorithm requests, and propose MOBjailbreak, a jailbreak method tailored for this scenario. Through extensive evaluation of 13 mainstream LLMs including the latest GPT-5 and DeepSeek-V3.1, we reveal that most models remain highly susceptible to such attacks, with an average attack success rate of 83.59% and an average harmfulness score of 4.28 out of 5 on original harmful prompts, and near-complete failure under MOBjailbreak. Furthermore, we assess state-of-the-art plug-and-play defenses that can be applied to closed-source models, and find that they are only marginally effective against MOBjailbreak and prone to exaggerated safety behaviors. These findings highlight the urgent need for stronger alignment techniques to safeguard LLMs against misuse in algorithm design.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な展開は、その誤用リスクと関連する安全上の問題に対する懸念を高めている。
従来の研究では、LLMの一般的な使用法、コード生成、エージェントベースのアプリケーションの安全性について検討されてきたが、自動化アルゴリズム設計における脆弱性は未解明のままである。
このギャップを埋めるために、この見過ごされた安全性の脆弱性について、複雑な意思決定シナリオで広く使われているインテリジェントな最適化アルゴリズム設計に特に焦点をあてて検討する。
我々は、60の悪意ある最適化アルゴリズム要求からなるベンチマークであるMalOptBenchを紹介し、このシナリオに適したJailbreakメソッドであるMOBjailbreakを提案する。
最新のGPT-5やDeepSeek-V3.1を含む13のLLMの広範囲な評価を通じて、ほとんどのモデルがそのような攻撃に対して高い影響を受けており、攻撃成功率は83.59%であり、元の有害なプロンプトでは5点中4.28点、MOBjailbreakではほぼ完全に失敗している。
さらに、クローズドソースモデルに適用可能な最先端のプラグ・アンド・プレイディフェンスを評価し、MOBjailbreakに対して極端に有効であり、過大な安全行動を引き起こすことを発見した。
これらの知見は、アルゴリズム設計における誤用からLLMを保護するために、より強力なアライメント技術の必要性を浮き彫りにしている。
関連論文リスト
- Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking [23.54890959996959]
大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
論文 参考訳(メタデータ) (2025-12-24T15:25:31Z) - OmniSafeBench-MM: A Unified Benchmark and Toolbox for Multimodal Jailbreak Attack-Defense Evaluation [94.61617176929384]
OmniSafeBench-MMはマルチモーダル・ジェイルブレイク攻撃防御評価のための総合ツールボックスである。
13の代表的な攻撃方法と15の防衛戦略、9つの主要なリスクドメインと50のきめ細かいカテゴリにまたがる多様なデータセットを統合している。
データ、方法論、評価をオープンソースで再現可能なプラットフォームに統合することで、OmniSafeBench-MMは将来の研究のための標準化された基盤を提供する。
論文 参考訳(メタデータ) (2025-12-06T22:56:29Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - SafeLLM: Unlearning Harmful Outputs from Large Language Models against Jailbreak Attacks [29.963044242980345]
ジェイルブレイク攻撃は、大規模言語モデルの安全性に深刻な脅威をもたらす。
我々は,新しい非学習型防衛フレームワークであるSafeLLMを提案する。
SafeLLMは高い汎用性能を維持しながら攻撃成功率を大幅に低下させることを示す。
論文 参考訳(メタデータ) (2025-08-21T02:39:14Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing [13.267217024192535]
大規模言語モデル(LLMs)におけるジェイルブレイク攻撃の重大な脆弱性
本稿では,保護者LSMの状態に基づいてジェイルブレイクプロンプトを生成・改善する新しい評価プロトコルであるGuardValを紹介する。
このプロトコルを10の安全領域にわたるMistral-7bからGPT-4まで多様なモデルに適用する。
論文 参考訳(メタデータ) (2025-07-10T13:15:20Z) - LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Evolving Security in LLMs: A Study of Jailbreak Attacks and Defenses [0.5261718469769449]
大規模言語モデル(LLM)はますます人気を博し、幅広いアプリケーションに電力を供給している。
特に、有害なコンテンツを生み出すための安全対策を回避したジェイルブレイク攻撃によって、それらの普及が懸念を呼び起こした。
本稿では,大規模言語モデル(LLM)の包括的セキュリティ解析を行い,モデル安全性の進化と決定要因に関する重要な研究課題に対処する。
論文 参考訳(メタデータ) (2025-04-02T19:33:07Z) - Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation [10.987263424166477]
大型言語モデル(LLM)の代替として、小型言語モデル(SLM)が登場した。
本稿では,SLMの脆弱性をジェイルブレイク攻撃に対して大規模な実証的研究を行った。
モデルのサイズ、モデルアーキテクチャ、トレーニングデータセット、トレーニングテクニックの4つの重要な要素を特定します。
論文 参考訳(メタデータ) (2025-03-09T08:47:16Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - OR-Bench: An Over-Refusal Benchmark for Large Language Models [65.34666117785179]
大きな言語モデル(LLM)は、悪意のある出力を防ぐために慎重に安全アライメントを必要とする。
本研究では,大規模なオーバーリファレンスデータセットの自動生成手法を提案する。
OR-Benchは,最初の大規模オーバーリファレンスベンチマークである。
論文 参考訳(メタデータ) (2024-05-31T15:44:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。