Fugu-MT 論文翻訳(概要): Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking

論文の概要: Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking

arxiv url: http://arxiv.org/abs/2512.21236v1
Date: Wed, 24 Dec 2025 15:25:31 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-25 19:43:21.814359
Title: Casting a SPELL: Sentence Pairing Exploration for LLM Limitation-breaking
Title（参考訳）: SPELL の鋳造: LLM 限界破砕のための文ペアリング探索
Authors: Yifan Huang, Xiaojun Jia, Wenbo Guo, Yuqiang Sun, Yihao Huang, Chong Wang, Yang Liu,
Abstract要約: 大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。本研究では,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するための総合的なテストフレームワークであるSPELLを提案する。
参考スコア（独自算出の注目度）: 23.54890959996959
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have revolutionized software development through AI-assisted coding tools, enabling developers with limited programming expertise to create sophisticated applications. However, this accessibility extends to malicious actors who may exploit these powerful tools to generate harmful software. Existing jailbreaking research primarily focuses on general attack scenarios against LLMs, with limited exploration of malicious code generation as a jailbreak target. To address this gap, we propose SPELL, a comprehensive testing framework specifically designed to evaluate the weakness of security alignment in malicious code generation. Our framework employs a time-division selection strategy that systematically constructs jailbreaking prompts by intelligently combining sentences from a prior knowledge dataset, balancing exploration of novel attack patterns with exploitation of successful techniques. Extensive evaluation across three advanced code models (GPT-4.1, Claude-3.5, and Qwen2.5-Coder) demonstrates SPELL's effectiveness, achieving attack success rates of 83.75%, 19.38%, and 68.12% respectively across eight malicious code categories. The generated prompts successfully produce malicious code in real-world AI development tools such as Cursor, with outputs confirmed as malicious by state-of-the-art detection systems at rates exceeding 73%. These findings reveal significant security gaps in current LLM implementations and provide valuable insights for improving AI safety alignment in code generation applications.
Abstract（参考訳）: 大規模言語モデル(LLM)は、AI支援コーディングツールを通じてソフトウェア開発に革命をもたらした。しかし、このアクセシビリティは、これらの強力なツールを利用して有害なソフトウェアを生成する悪意のあるアクターにまで拡張される。既存のジェイルブレイク研究は、主にLLMに対する一般的な攻撃シナリオに焦点を当てており、ジェイルブレイクターゲットとして悪意のあるコード生成を限定的に調査している。このギャップに対処するために,悪意のあるコード生成におけるセキュリティアライメントの弱点を評価するために設計された,包括的なテストフレームワークであるSPELLを提案する。本フレームワークでは,従来の知識データセットからの文をインテリジェントに組み合わせ,新たな攻撃パターンの探索と手法の活用を両立させることにより,ジェイルブレイクプロンプトを体系的に構築するタイムディビジョン選択戦略を採用している。 3つの高度なコードモデル(GPT-4.1、Claude-3.5、Qwen2.5-Coder)の広範な評価はSPELLの有効性を示し、8つの悪意のあるコードカテゴリでそれぞれ83.75%、19.38%、68.12%の攻撃成功率を達成した。生成されたプロンプトは、Cursorのような現実世界のAI開発ツールで悪意のあるコードを生成することに成功した。これらの結果は、現在のLLM実装において重大なセキュリティギャップを明らかにし、コード生成アプリケーションにおけるAI安全性の整合性を改善するための貴重な洞察を提供する。

関連論文リスト

Overlooked Safety Vulnerability in LLMs: Malicious Intelligent Optimization Algorithm Request and its Jailbreak [27.520381454182147]
本研究では,アルゴリズムの自動設計における大規模言語モデル(LLM)の安全性について検討する。悪質な最適化アルゴリズム要求60件からなるベンチマークであるMalOptBenchを紹介し,MOBjailbreakを提案する。このような攻撃に対して、ほとんどのモデルは高い影響を受けており、攻撃成功率は平均83.59%であり、元の有害なプロンプトでは5つ中4.28点である。
論文参考訳（メタデータ） (2026-01-01T05:14:32Z)
When AI Takes the Wheel: Security Analysis of Framework-Constrained Program Generation [20.940139710065306]
本研究では,最先端LLMが生成するフレームワーク制約プログラムのセキュリティ特性について検討する。複数の特権境界と分離されたコンポーネントを含む複雑なセキュリティモデルのために、Chromeエクステンションに特化しています。これらのプロンプトを使用して、9つの最先端のLCMに、完全なChromeエクステンションを生成するように指示し、脆弱性を解析しました。
論文参考訳（メタデータ） (2025-10-19T13:19:20Z)
A.S.E: A Repository-Level Benchmark for Evaluating Security in AI-Generated Code [49.009041488527544]
A.S.Eは、AI生成コードのセキュリティを評価するためのリポジトリレベルの評価ベンチマークである。現在の大規模言語モデル(LLM)は、セキュアなコーディングに苦戦している。大きな推論予算は、必ずしもより良いコード生成につながるとは限らない。
論文参考訳（メタデータ） (2025-08-25T15:11:11Z)
ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。 ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文参考訳（メタデータ） (2025-07-14T09:05:54Z)
MGC: A Compiler Framework Exploiting Compositional Blindness in Aligned LLMs for Malware Generation [22.29476520010842]
大規模言語モデル(LLM)はソフトウェア開発を民主化し、複雑なアプリケーションをプログラミングする際の専門知識の障壁を減らした。このアクセシビリティは、悪意のあるソフトウェア開発にまで拡張され、重大なセキュリティ上の懸念がもたらされる。本稿では,モジュール分解とアライメント回避生成を通じて,この脆弱性を活用する新しいフレームワークであるMalware Generation Compiler(MGC)を紹介する。
論文参考訳（メタデータ） (2025-07-02T18:00:49Z)
LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges [70.85114705489222]
悪意のあるコード生成のための3,520のジェイルブレイクプロンプトを含むベンチマークデータセットであるMalwareBenchを提案する。 M MalwareBenchは、11のJailbreakメソッドと29のコード機能カテゴリをカバーする、320の手作業による悪意のあるコード生成要件に基づいている。実験の結果、LLMは悪意のあるコード生成要求を拒否する限られた能力を示し、複数のjailbreakメソッドを組み合わせることで、モデルのセキュリティ機能をさらに低下させることが示された。
論文参考訳（メタデータ） (2025-06-09T12:02:39Z)
Towards Action Hijacking of Large Language Model-based Agent [23.13653350521422]
LLMベースのアプリケーションのアクションプランを操作するための新しい攻撃であるAI$mathbf2$を紹介する。まず、被害者のアプリケーションからアクション認識の知識を収集する。このような知識に基づいて、攻撃者は誤解を招く入力を生成することができ、LLMを誤解して有害なアクションプランを生成することができる。
論文参考訳（メタデータ） (2024-12-14T12:11:26Z)
Iterative Self-Tuning LLMs for Enhanced Jailbreaking Capabilities [50.980446687774645]
本稿では,対戦型LDMをジェイルブレイク能力に富んだ反復的自己調整プロセスであるADV-LLMを紹介する。我々のフレームワークは,様々なオープンソース LLM 上で ASR を100% 近く達成しながら,逆接接尾辞を生成する計算コストを大幅に削減する。 Llama3のみに最適化されているにもかかわらず、GPT-3.5では99%のASR、GPT-4では49%のASRを達成している。
論文参考訳（メタデータ） (2024-10-24T06:36:12Z)
How Well Do Large Language Models Serve as End-to-End Secure Code Agents for Python? [42.119319820752324]
GPT-3.5 と GPT-4 の 4 つの LLM で生成されたコードの脆弱性を識別し,修復する能力について検討した。 4900のコードを手動または自動でレビューすることで、大きな言語モデルにはシナリオ関連セキュリティリスクの認識が欠けていることが判明した。修復の1ラウンドの制限に対処するため,LLMにより安全なソースコード構築を促す軽量ツールを開発した。
論文参考訳（メタデータ） (2024-08-20T02:42:29Z)
ShadowCode: Towards (Automatic) External Prompt Injection Attack against Code LLMs [56.46702494338318]
本稿では,コード指向の大規模言語モデルに対する(自動)外部プロンプトインジェクションという,新たな攻撃パラダイムを紹介する。コードシミュレーションに基づいて誘導摂動を自動生成する,シンプルで効果的な方法であるShadowCodeを提案する。 3つの人気のあるプログラミング言語にまたがる31の脅威ケースを発生させるため、13の異なる悪意のある目標に対して本手法を評価した。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
Codexity: Secure AI-assisted Code Generation [11.114499124198268]
Codexityは,5つの大規模言語モデルを統合した,セキュリティを重視したコード生成フレームワークである。 751の脆弱性を自動生成した実世界のベンチマークで評価したところ、Codexityは、ソフトウェア開発者が公開する脆弱性の60%を防止できます。
論文参考訳（メタデータ） (2024-05-07T01:11:14Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。