論文の概要: Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking
- arxiv url: http://arxiv.org/abs/2512.21236v1
- Date: Wed, 24 Dec 2025 15:25:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.814359
- Title: Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking
- Title(参考訳): SPELL の鋳造: LLM 限界破砕のための文ペアリング探索
- Authors: Yifan Huang, Xiaojun Jia, Wenbo Guo, Yuqiang Sun, Yihao Huang, Chong Wang, Yang Liu,
- Abstract要約: 大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
- 参考スコア(独自算出の注目度): 23.54890959996959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have revolutionized software development through AI-assisted coding tools, enabling developers with limited programming expertise to create sophisticated applications. However, this accessibility extends to malicious actors who may exploit these powerful tools to generate harmful software. Existing jailbreaking research primarily focuses on general attack scenarios against LLMs, with limited exploration of malicious code generation as a jailbreak target. To address this gap, we propose SPELL, a comprehensive testing framework specifically designed to evaluate the weakness of security alignment in malicious code generation. Our framework employs a time-division selection strategy that systematically constructs jailbreaking prompts by intelligently combining sentences from a prior knowledge dataset, balancing exploration of novel attack patterns with exploitation of successful techniques. Extensive evaluation across three advanced code models (GPT-4.1, Claude-3.5, and Qwen2.5-Coder) demonstrates SPELL's effectiveness, achieving attack success rates of 83.75%, 19.38%, and 68.12% respectively across eight malicious code categories. The generated prompts successfully produce malicious code in real-world AI development tools such as Cursor, with outputs confirmed as malicious by state-of-the-art detection systems at rates exceeding 73%. These findings reveal significant security gaps in current LLM implementations and provide valuable insights for improving AI safety alignment in code generation applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。
しかし、このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。
既存のジェイルブレイク研究は、主にLLMに対する一般的な攻撃シナリオに焦点を当てており、ジェイルブレイクターゲットとして悪意のあるコード生成を限定的に調査している。
このギャップに対処するために,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するために設計された,包括的なテストフレームワークであるSPELLを提案する。
本フレームワークでは,従来の知識データセットからの文をインテリジェントに組み合わせ,新たな攻撃パターンの探索と手法の活用を両立させることにより,ジェイルブレイクプロンプトを体系的に構築するタイムディビジョン選択戦略を採用している。
3つの高度なコードモデル(GPT-4.1、Claude-3.5、Qwen2.5-Coder)の広範な評価はSPELLの有効性を示し、8つの悪意のあるコードカテゴリでそれぞれ83.75%、19.38%、68.12%の攻撃成功率を達成した。
生成されたプロンプトは、Cursorのような現実世界のAI開発ツールで悪意のあるコードを生成することに成功した。
これらの結果は、現在のLLM実装において重大なセキュリティギャップを明らかにし、コード生成アプリケーションにおけるAI安全性の整合性を改善するための貴重な洞察を提供する。
関連論文リスト
- When AI Takes the Wheel: Security Analysis of Framework-Constrained Program Generation [20.940139710065306]
本研究では,最先端LLMが生成するフレームワーク制約プログラムのセキュリティ特性について検討する。
複数の特権境界と分離されたコンポーネントを含む複雑なセキュリティモデルのために、Chromeエクステンションに特化しています。
これらのプロンプトを使用して、9つの最先端のLCMに、完全なChromeエクステンションを生成するように指示し、脆弱性を解析しました。
論文 参考訳(メタデータ) (2025-10-19T13:19:20Z) - MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation [22.29476520010842]
大規模言語モデル(LLM)はソフトウェア開発を民主化し、複雑なアプリケーションをプログラミングする際の専門知識の障壁を減らした。
このアクセシビリティは、悪意のあるソフトウェア開発にまで拡張され、重大なセキュリティ上の懸念がもたらされる。
本稿では,モジュール分解とアライメント回避生成を通じて,この脆弱性を活用する新しいフレームワークであるMalware Generation Compiler(MGC)を紹介する。
論文 参考訳(メタデータ) (2025-07-02T18:00:49Z) - LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。
M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。
実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文 参考訳(メタデータ) (2025-06-09T12:02:39Z) - Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。
まず、被害者のアプリケーションからアクション認識の知識を収集する。
このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文 参考訳(メタデータ) (2024-12-14T12:11:26Z) - Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。
我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。
Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文 参考訳(メタデータ) (2024-10-24T06:36:12Z) - How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。
4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。
修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文 参考訳(メタデータ) (2024-08-20T02:42:29Z) - ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。
コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。
3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - Codexity: Secure AI-assisted Code Generation [11.114499124198268]
Codexityは,5つの大規模言語モデルを統合した,セキュリティを重視したコード生成フレームワークである。
751の脆弱性を自動生成した実世界のベンチマークで評価したところ、Codexityは、ソフトウェア開発者が公開する脆弱性の60%を防止できます。
論文 参考訳(メタデータ) (2024-05-07T01:11:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。