論文の概要: EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion
- arxiv url: http://arxiv.org/abs/2512.23173v1
- Date: Mon, 29 Dec 2025 03:28:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.392202
- Title: EquaCode: A Multi-Strategy Jailbreak Approach for Large Language Models via Equation Solving and Code Completion
- Title(参考訳): EquaCode: 方程式解決とコード補完による大規模言語モデルのマルチストラテジージェイルブレイクアプローチ
- Authors: Zhen Liang, Hai Huang, Zhengkui Chen,
- Abstract要約: 方程式解法とコード補完による大規模言語モデルに対する新しいマルチストラテジーなジェイルブレイク手法であるEquacodeを提案する。
Equacodeは、GPTシリーズの平均成功率は91.19%、最先端の3つのLCMで98.65%に達する。
- 参考スコア(独自算出の注目度): 4.9059249177426185
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), such as ChatGPT, have achieved remarkable success across a wide range of fields. However, their trustworthiness remains a significant concern, as they are still susceptible to jailbreak attacks aimed at eliciting inappropriate or harmful responses. However, existing jailbreak attacks mainly operate at the natural language level and rely on a single attack strategy, limiting their effectiveness in comprehensively assessing LLM robustness. In this paper, we propose Equacode, a novel multi-strategy jailbreak approach for large language models via equation-solving and code completion. This approach transforms malicious intent into a mathematical problem and then requires the LLM to solve it using code, leveraging the complexity of cross-domain tasks to divert the model's focus toward task completion rather than safety constraints. Experimental results show that Equacode achieves an average success rate of 91.19% on the GPT series and 98.65% across 3 state-of-the-art LLMs, all with only a single query. Further, ablation experiments demonstrate that EquaCode outperforms either the mathematical equation module or the code module alone. This suggests a strong synergistic effect, thereby demonstrating that multi-strategy approach yields results greater than the sum of its parts.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、幅広い分野において顕著な成功を収めている。
しかし、不適切なあるいは有害な反応を誘発することを目的としたジェイルブレイク攻撃の影響を受けやすいため、彼らの信頼性は依然として重大な懸念事項である。
しかし、既存のジェイルブレイク攻撃は主に自然言語レベルで動作し、単一の攻撃戦略に依存しており、LLMの堅牢性を総合的に評価する効果を制限している。
本稿では,方程式解法とコード補完による大規模言語モデルに対する新しいマルチストラテジー・ジェイルブレイク手法であるEquacodeを提案する。
このアプローチは、悪意のある意図を数学的問題に変換し、LLMがコードを使ってそれを解く必要がある。
実験の結果、Equacode は GPT シリーズの平均成功率は91.19%、最先端の3つの LLM では98.65% に達している。
さらに、アブレーション実験は、EquaCodeが数学的方程式モジュールまたはコードモジュール単独よりも優れていることを示した。
このことは、強い相乗効果を示し、これにより、多ストラテジーアプローチがその部分の和よりも大きい結果をもたらすことを示す。
関連論文リスト
- Harmful Prompt Laundering: Jailbreaking LLMs with Abductive Styles and Symbolic Encoding [19.92751862281067]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示しているが、有害な目的に対する潜在的な誤用は、依然として重大な懸念である。
textbfHarmful textbfPrompt textbfLaundering (HaPLa)を提案する。
論文 参考訳(メタデータ) (2025-09-13T18:07:56Z) - GRAF: Multi-turn Jailbreaking via Global Refinement and Active Fabrication [55.63412213263305]
大規模言語モデルは、悪意のある目的のために誤用される可能性があるため、顕著な安全性のリスクを生じさせる。
そこで本研究では,各インタラクションにおける攻撃経路をグローバルに洗練する,新しいマルチターンジェイルブレーキング手法を提案する。
さらに、モデル応答を積極的に作成し、安全性に関する警告を抑えることにより、有害な出力を誘発する可能性を高める。
論文 参考訳(メタデータ) (2025-06-22T03:15:05Z) - Foot-In-The-Door: A Multi-turn Jailbreak for LLMs [40.958137601841734]
主な課題はjailbreakで、敵はビルトインのセーフガードをバイパスして有害な出力を誘導する。
心理学的フット・イン・ザ・ドアの原則に着想を得て,新しいマルチターンジェイルブレイク法であるFITDを導入する。
提案手法は,中間的なブリッジプロンプトを通じてユーザクエリの悪意ある意図を段階的にエスカレートし,それ自身でモデル応答を調整し,有害な応答を誘導する。
論文 参考訳(メタデータ) (2025-02-27T06:49:16Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。