論文の概要: SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement
- arxiv url: http://arxiv.org/abs/2603.08520v1
- Date: Mon, 09 Mar 2026 15:54:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.383008
- Title: SCAFFOLD-CEGIS: Preventing Latent Security Degradation in LLM-Driven Iterative Code Refinement
- Title(参考訳): SCAFFOLD-CEGIS: LLM駆動反復コードリファインメントにおける潜時セキュリティの劣化防止
- Authors: Yi Chen, Yun Bian, Haiquan Wang, Shihao Li, Zhe Cui,
- Abstract要約: マルチオブジェクト最適化における仕様のドリフトは、連続する繰り返しに対してセキュリティを徐々に低下させます。
本稿では,セキュリティ制約を暗黙的なプロンプトから明示的な検証可能な制約に変換するSCAFFOLD-CEGISフレームワークを提案する。
- 参考スコア(独自算出の注目度): 12.69450437027072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The application of large language models to code generation has evolved from one-shot generation to iterative refinement, yet the evolution of security throughout iteration remains insufficiently understood. Through comparative experiments on three mainstream LLMs, this paper reveals the iterative refinement paradox: specification drift during multi-objective optimization causes security to degrade gradually over successive iterations. Taking GPT-4o as an example, 43.7 % of iteration chains contain more vulnerabilities than the baseline after ten rounds, and cross-model experiments show that this phenomenon is prevalent. Further analysis shows that simply introducing static application security testing (SAST) gating cannot effectively suppress degradation; instead, it increases the latent security degradation rate from 12.5% under the unprotected baseline to 20.8 %. The root cause is that static-analysis rules cannot cover structural degradations such as the removal of defensive logic or the weakening of exception handling. To address this problem, we propose the SCAFFOLD-CEGIS framework. Drawing on the counterexample-guided inductive synthesis (CEGIS) paradigm, the framework adopts a multi-agent collaborative architecture that transforms security constraints from implicit prompts into explicit verifiable constraints. It automatically identifies and solidifies security-critical elements as hard constraints through semantic anchoring, enforces safety monotonicity through four-layer gated verification, and continuously assimilates experience from failures. Comparative experiments against six existing defense methods show that the full framework reduces the latent security degradation rate to 2.1% and achieves a safety monotonicity rate of 100%.
- Abstract(参考訳): 大規模言語モデルのコード生成への応用は、ワンショット生成から反復的改善へと進化してきたが、繰り返しを通してのセキュリティの進化は、まだ十分に理解されていない。
マルチオブジェクト最適化における仕様のドリフトは,連続する繰り返しに対してセキュリティを徐々に低下させる。
GPT-4oを例にとると、反復鎖の43.7%は10ラウンド後のベースラインよりも多くの脆弱性を含んでいる。
さらなる分析によると、静的アプリケーションセキュリティテスト(SAST)ゲーティングを導入するだけでは、劣化を効果的に抑制できない。
根本原因は、静的分析規則が防御論理の除去や例外処理の弱化といった構造的劣化をカバーできないことである。
そこで我々はSCAFFOLD-CEGISフレームワークを提案する。
反例誘導帰納的合成(CEGIS)パラダイムに基づいて、このフレームワークは、セキュリティ制約を暗黙のプロンプトから明示的な検証可能な制約に変換するマルチエージェント協調アーキテクチャを採用する。
セマンティックアンカリングを通じてセキュリティクリティカルな要素をハード制約として自動的に識別し、凝固し、4層ゲート検証によって安全性のモノトニック性を強制し、障害からのエクスペリエンスを継続的に同化します。
既存の6つの防御方法との比較実験により、完全なフレームワークは潜伏するセキュリティ劣化率を2.1%に削減し、安全性のモノトニック性率を100%を達成することを示した。
関連論文リスト
- BarrierSteer: LLM Safety via Learning Barrier Steering [83.12893815611052]
BarrierSteerは、学習した非線形安全性制約を直接モデルの潜在表現空間に埋め込むことで、安全性を形式化する新しいフレームワークである。
BarrierSteerは、敵の成功率を大幅に低下させ、安全でない世代を減少させ、既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2026-02-23T18:19:46Z) - Provable Defense Framework for LLM Jailbreaks via Noise-Augumented Alignment [37.06683377953812]
大規模言語モデル(LLM)は、GCGのような経験的防御を簡単に回避できる適応型ジェイルブレイクに対して脆弱なままである。
本研究では,安全保証をシングルパス推論からアンサンブルの統計的安定性にシフトさせる,証明可能なロバスト性のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T03:26:45Z) - Prompt Injection Mitigation with Agentic AI, Nested Learning, and AI Sustainability via Semantic Caching [0.42970700836450487]
本論文は, TIVS (Total Injection Vulnerability Score) を導入した作業を基にしたものである。
HOPEにインスパイアされたNested Learningアーキテクチャにおいて、防御効果が透明性とどのように相互作用するかを調査する。
実験の結果,高いリスクを伴わないセキュアな応答が得られた。
論文 参考訳(メタデータ) (2026-01-19T16:10:11Z) - ProGuard: Towards Proactive Multimodal Safeguard [48.89789547707647]
ProGuardは視覚言語プロアクティブガードであり、アウト・オブ・ディストリビューション(OOD)の安全性リスクを特定し記述する。
まず,2次安全ラベルとリスクカテゴリの両方を付加した87Kサンプルのモダリティバランスデータセットを構築した。
次に、強化学習を通して視覚言語ベースモデルを純粋に訓練し、効率的かつ簡潔な推論を実現する。
論文 参考訳(メタデータ) (2025-12-29T16:13:23Z) - RESCUE: Retrieval Augmented Secure Code Generation [5.001448044530164]
2つの重要な革新を伴うセキュアなコード生成のための新しいフレームワークであるRESCUEを提案する。
まず, LLMを用いたクラスタ列化蒸留とプログラムスライシングを組み合わせたハイブリッド知識ベース構築法を提案する。
第2に,構築した知識ベースを上から下へトラバースする階層的多面検索を設計し,階層レベルで複数のセキュリティクリティカルな事実を統合する。
論文 参考訳(メタデータ) (2025-10-21T01:13:03Z) - DiffuGuard: How Intrinsic Safety is Lost and Found in Diffusion Large Language Models [50.21378052667732]
我々は、ステップ内およびステップ間ダイナミクスという2つの異なる次元にわたるジェイルブレイク攻撃に対して、dLLM脆弱性の詳細な分析を行う。
デュアルステージアプローチによる脆弱性に対処する,トレーニング不要な防御フレームワークであるDiffuGuardを提案する。
論文 参考訳(メタデータ) (2025-09-29T05:17:10Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Embedding Poisoning: Bypassing Safety Alignment via Embedding Semantic Shift [23.0914017433021]
この研究は、モデルウェイトや入力テキストを変更することなく、埋め込み層出力に直接知覚不能な摂動を注入することで脆弱性を利用する、新しいデプロイメントフェーズ攻撃のクラスを特定する。
本稿では,リスクトークンに関連付けられた埋め込みに注意深く最適化された摂動を導入する,実用的なモデルに依存しないフレームワークである検索ベースの埋め込みポジショニングを提案する。
論文 参考訳(メタデータ) (2025-09-08T05:00:58Z) - T2V-OptJail: Discrete Prompt Optimization for Text-to-Video Jailbreak Attacks [67.91652526657599]
我々は、T2Vジェイルブレイク攻撃を離散最適化問題として定式化し、T2V-OptJailと呼ばれる共同目的ベース最適化フレームワークを提案する。
いくつかのT2Vモデルに対して大規模な実験を行い、オープンソースモデルと実際の商用クローズドソースモデルの両方をカバーする。
提案手法は,攻撃成功率の観点から既存手法よりも11.4%,10.0%向上する。
論文 参考訳(メタデータ) (2025-05-10T16:04:52Z) - Advancing Neural Network Verification through Hierarchical Safety Abstract Interpretation [52.626086874715284]
我々は、安全でない出力の階層構造を検証する抽象的DNN検証と呼ばれる新しい問題定式化を導入する。
出力到達可能な集合に関する抽象的解釈と推論を活用することにより,形式的検証プロセスにおいて,複数の安全性レベルを評価することができる。
我々の貢献には、新しい抽象的安全性の定式化と既存のアプローチとの関係を理論的に探求することが含まれる。
論文 参考訳(メタデータ) (2025-05-08T13:29:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。