論文の概要: Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak
- arxiv url: http://arxiv.org/abs/2601.00213v1
- Date: Thu, 01 Jan 2026 05:14:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.312609
- Title: Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak
- Title(参考訳): LLMにおける過度な安全性の脆弱性: 悪意のあるインテリジェント最適化アルゴリズムの要求とそのジェイルブレイク
- Authors: Haoran Gu, Handing Wang, Yi Mei, Mengjie Zhang, Yaochu Jin,
- Abstract要約: 本研究では,アルゴリズムの自動設計における大規模言語モデル(LLM)の安全性について検討する。
悪質な最適化アルゴリズム要求60件からなるベンチマークであるMalOptBenchを紹介し,MOBjailbreakを提案する。
このような攻撃に対して、ほとんどのモデルは高い影響を受けており、攻撃成功率は平均83.59%であり、元の有害なプロンプトでは5つ中4.28点である。
- 参考スコア(独自算出の注目度): 27.520381454182147
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The widespread deployment of large language models (LLMs) has raised growing concerns about their misuse risks and associated safety issues. While prior studies have examined the safety of LLMs in general usage, code generation, and agent-based applications, their vulnerabilities in automated algorithm design remain underexplored. To fill this gap, this study investigates this overlooked safety vulnerability, with a particular focus on intelligent optimization algorithm design, given its prevalent use in complex decision-making scenarios. We introduce MalOptBench, a benchmark consisting of 60 malicious optimization algorithm requests, and propose MOBjailbreak, a jailbreak method tailored for this scenario. Through extensive evaluation of 13 mainstream LLMs including the latest GPT-5 and DeepSeek-V3.1, we reveal that most models remain highly susceptible to such attacks, with an average attack success rate of 83.59% and an average harmfulness score of 4.28 out of 5 on original harmful prompts, and near-complete failure under MOBjailbreak. Furthermore, we assess state-of-the-art plug-and-play defenses that can be applied to closed-source models, and find that they are only marginally effective against MOBjailbreak and prone to exaggerated safety behaviors. These findings highlight the urgent need for stronger alignment techniques to safeguard LLMs against misuse in algorithm design.
- Abstract(参考訳): 大規模言語モデル(LLM)の広範な展開は、その誤用リスクと関連する安全上の問題に対する懸念を高めている。
従来の研究では、LLMの一般的な使用法、コード生成、エージェントベースのアプリケーションの安全性について検討されてきたが、自動化アルゴリズム設計における脆弱性は未解明のままである。
このギャップを埋めるために、この見過ごされた安全性の脆弱性について、複雑な意思決定シナリオで広く使われているインテリジェントな最適化アルゴリズム設計に特に焦点をあてて検討する。
我々は、60の悪意ある最適化アルゴリズム要求からなるベンチマークであるMalOptBenchを紹介し、このシナリオに適したJailbreakメソッドであるMOBjailbreakを提案する。
最新のGPT-5やDeepSeek-V3.1を含む13のLLMの広範囲な評価を通じて、ほとんどのモデルがそのような攻撃に対して高い影響を受けており、攻撃成功率は83.59%であり、元の有害なプロンプトでは5点中4.28点、MOBjailbreakではほぼ完全に失敗している。
さらに、クローズドソースモデルに適用可能な最先端のプラグ・アンド・プレイディフェンスを評価し、MOBjailbreakに対して極端に有効であり、過大な安全行動を引き起こすことを発見した。
これらの知見は、アルゴリズム設計における誤用からLLMを保護するために、より強力なアライメント技術の必要性を浮き彫りにしている。
関連論文リスト
- Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking [23.54890959996959]
大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
論文 参考訳(メタデータ) (2025-12-24T15:25:31Z) - GuardVal: Dynamic Large Language Model Jailbreak Evaluation for Comprehensive Safety Testing [13.267217024192535]
大規模言語モデル(LLMs)におけるジェイルブレイク攻撃の重大な脆弱性
本稿では,保護者LSMの状態に基づいてジェイルブレイクプロンプトを生成・改善する新しい評価プロトコルであるGuardValを紹介する。
このプロトコルを10の安全領域にわたるMistral-7bからGPT-4まで多様なモデルに適用する。
論文 参考訳(メタデータ) (2025-07-10T13:15:20Z) - Can Small Language Models Reliably Resist Jailbreak Attacks? A Comprehensive Evaluation [10.987263424166477]
大型言語モデル(LLM)の代替として、小型言語モデル(SLM)が登場した。
本稿では,SLMの脆弱性をジェイルブレイク攻撃に対して大規模な実証的研究を行った。
モデルのサイズ、モデルアーキテクチャ、トレーニングデータセット、トレーニングテクニックの4つの重要な要素を特定します。
論文 参考訳(メタデータ) (2025-03-09T08:47:16Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。