論文の概要: Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation
- arxiv url: http://arxiv.org/abs/2603.10072v1
- Date: Tue, 10 Mar 2026 05:34:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.613475
- Title: Why LLMs Fail: A Failure Analysis and Partial Success Measurement for Automated Security Patch Generation
- Title(参考訳): LLMが失敗する理由: 自動セキュリティパッチ生成における障害解析と部分的成功測定
- Authors: Amir Al-Maamari,
- Abstract要約: この研究では、Vul4Jベンチマークから64のJava脆弱性にまたがる319のLarge Language Models (LLM)生成セキュリティパッチを分析した。
三軸評価を用いて分析したところ、パッチの24.8%だけが完全な正当性を達成し、51.4%はセキュリティと機能の両方に失敗していることがわかった。
提案されたSecurity repair Score (SRS)はこのギャップを定量化し、LLMが機能を保存する(平均0.832)が、セキュリティに苦しむ(平均0.251)。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) show promise for Automated Program Repair (APR), yet their effectiveness on security vulnerabilities remains poorly characterized. This study analyzes 319 LLM-generated security patchesacross 64 Java vulnerabilities from the Vul4J benchmark. Using tri-axis evaluation (compilation, security via PoV tests, functionality via test suites), the analysis reveals that only 24.8% of patches achieve full correctness, while 51.4% fail both security and functionality. The dominant failure mode is semantic misunderstanding: LLMs produce syntactically valid code but apply incorrect repair strategies. The proposed Security Repair Score (SRS) quantifies this gap, showing LLMs preserve functionality (mean 0.832) but struggle with security (mean 0.251). Vulnerability type strongly predicts difficulty, with fix rates ranging from 0% (input validation) to 45% (infinite loop). These findings demonstrate that LLM security patches require rigorous validation before deployment.
- Abstract(参考訳): 大規模言語モデル(LLM)は、APR(Automated Program repair)の約束を示すが、セキュリティ上の脆弱性に対する効果は、まだ不十分である。
この研究は、Vul4Jベンチマークから64のJava脆弱性に対して、319 LLM生成のセキュリティパッチを分析した。
三軸評価(コンパイル、PoVテストによるセキュリティ、テストスイートによる機能)を用いることで、パッチの24.8%のみが完全な正当性を達成し、51.4%はセキュリティと機能の両方を失敗することが明らかになった。
LLMは構文的に有効なコードを生成するが、誤った修復戦略を適用する。
提案されたSecurity repair Score (SRS) はこのギャップを定量化し、LLMが機能を保存する(平均0.832)が、セキュリティに苦しむ(平均0.251)。
脆弱性タイプは、0%(入力検証)から45%(無限ループ)までの修正率で、困難を強く予測する。
これらの結果は、LSMのセキュリティパッチがデプロイ前に厳格な検証を必要とすることを示している。
関連論文リスト
- RealSec-bench: A Benchmark for Evaluating Secure Code Generation in Real-World Repositories [58.32028251925354]
LLM(Large Language Models)は、コード生成において顕著な能力を示しているが、セキュアなコードを生成する能力は依然として重要で、未調査の領域である。
我々はRealSec-benchを紹介します。RealSec-benchは、現実世界の高リスクなJavaリポジトリから慎重に構築されたセキュアなコード生成のための新しいベンチマークです。
論文 参考訳(メタデータ) (2026-01-30T08:29:01Z) - SecureFixAgent: A Hybrid LLM Agent for Automated Python Static Vulnerability Repair [0.0]
本稿では、Banditと軽量ローカルLLMを統合したハイブリッド修復フレームワークSecureFixAgentを紹介する。
精度を向上させるために、パラメータ効率のよいLoRAに基づく微調整を、多種多様なキュレートされたデータセットに適用する。
実験では、SecureFixAgentは静的解析で偽陽性を10.8%減らし、修正精度を13.51%改善し、事前訓練されたLDMと比較して偽陽性を5.46%減らした。
論文 参考訳(メタデータ) (2025-09-18T15:45:43Z) - Towards Effective Complementary Security Analysis using Large Language Models [3.203446435054805]
セキュリティ分析における重要な課題は、静的アプリケーションセキュリティテスト(SAST)ツールによって生成される潜在的なセキュリティの弱点を手動で評価することである。
本研究では,SAST 結果の評価を改善するために,Large Language Models (LLMs) を提案する。
論文 参考訳(メタデータ) (2025-06-20T10:46:35Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Can LLM Prompting Serve as a Proxy for Static Analysis in Vulnerability Detection [9.269926508651091]
大規模言語モデル(LLM)は、脆弱性検出などの安全クリティカルなコードタスクに制限があることを示している。
本稿では,脆弱性の自然言語命令を,対照的な連鎖推論と統合する戦略を提案する。
本研究は,静的アナライザの厳格な手作りルールに代えて,セキュリティ対応のプロンプト技術が有効であることを示す。
論文 参考訳(メタデータ) (2024-12-16T18:08:14Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。