論文の概要: Identifying Helpful Context for LLM-based Vulnerability Repair: A Preliminary Study
- arxiv url: http://arxiv.org/abs/2506.11561v1
- Date: Fri, 13 Jun 2025 08:15:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.71336
- Title: Identifying Helpful Context for LLM-based Vulnerability Repair: A Preliminary Study
- Title(参考訳): LLMによる脆弱性修復のためのヘルプフルコンテキストの同定 : 予備的検討
- Authors: Gábor Antal, Bence Bogenfürst, Rudolf Ferenc, Péter Hegedűs,
- Abstract要約: 本稿では,広く使用されているデータセット(Vul4J)からJava脆弱性を修復する際のGPT-4oの性能について検討する。
我々は,最新のGPT-4oの性能と,同じプロンプトを用いたGPT-4Oの性能を比較した。
textscTop-3を併用すると、GPT-4oは26(62%)の脆弱性を少なくとも1回修復し、元のベースライン(40%)と再現(45%)を上回りました。
- 参考スコア(独自算出の注目度): 0.5299803738642662
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in large language models (LLMs) have shown promise for automated vulnerability detection and repair in software systems. This paper investigates the performance of GPT-4o in repairing Java vulnerabilities from a widely used dataset (Vul4J), exploring how different contextual information affects automated vulnerability repair (AVR) capabilities. We compare the latest GPT-4o's performance against previous results with GPT-4 using identical prompts. We evaluated nine additional prompts crafted by us that contain various contextual information such as CWE or CVE information, and manually extracted code contexts. Each prompt was executed three times on 42 vulnerabilities, and the resulting fix candidates were validated using Vul4J's automated testing framework. Our results show that GPT-4o performed 11.9\% worse on average than GPT-4 with the same prompt, but was able to fix 10.5\% more distinct vulnerabilities in the three runs together. CVE information significantly improved repair rates, while the length of the task description had minimal impact. Combining CVE guidance with manually extracted code context resulted in the best performance. Using our \textsc{Top}-3 prompts together, GPT-4o repaired 26 (62\%) vulnerabilities at least once, outperforming both the original baseline (40\%) and its reproduction (45\%), suggesting that ensemble prompt strategies could improve vulnerability repair in zero-shot settings.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ソフトウェアシステムにおける自動脆弱性検出と修復の可能性を示唆している。
本稿では、広く使われているデータセット(Vul4J)からJavaの脆弱性を修復する際のGPT-4oの性能について検討し、異なるコンテキスト情報が自動脆弱性修復(AVR)機能に与える影響について検討する。
我々は,最新のGPT-4oの性能と,同じプロンプトを用いたGPT-4Oの性能を比較した。
我々は,CWE情報やCVE情報などの様々なコンテキスト情報を含む,私たちが開発した9つの追加のプロンプトを評価し,手動でコードコンテキストを抽出した。
各プロンプトは42の脆弱性で3回実行され、その結果の修正候補はVul4Jの自動テストフレームワークを使用して検証された。
以上の結果から,GPT-4oはGPT-4より1.9\%,同じプロンプトで1.9\%,3回とも10.5\%の脆弱性を修正できた。
CVE情報は修復率を大幅に改善し、タスク記述の長さは最小限に抑えられた。
CVEガイダンスと手作業で抽出したコードコンテキストを組み合わせることで、最高のパフォーマンスを実現した。
GPT-4oは、当社の‘textsc{Top}-3’プロンプトを使って、少なくとも26(62\%)の脆弱性を修復し、元のベースライン(40\%)と再現(45\%)の両方を上回り、アンサンブルプロンプト戦略がゼロショット設定での脆弱性修復を改善する可能性があることを示唆した。
関連論文リスト
- Leveraging GPT-4 for Vulnerability-Witnessing Unit Test Generation [0.6571063542099526]
本稿では,最も広く使用されている大規模言語モデルであるGPT-4の自動単体テスト生成機能について検討する。
実際の脆弱性とそれに対応する修正を含むVUL4Jデータセットのサブセットについて検討する。
我々は,コードコンテキストの影響,GPT-4の自己補正能力の有効性,生成したテストケースの主観的使用性に着目した。
論文 参考訳(メタデータ) (2025-06-13T08:13:07Z) - VADER: A Human-Evaluated Benchmark for Vulnerability Assessment, Detection, Explanation, and Remediation [0.8087612190556891]
VADERは174の現実世界のソフトウェア脆弱性で構成されており、それぞれがGitHubから慎重にキュレーションされ、セキュリティ専門家によって注釈付けされている。
各脆弱性ケースに対して、モデルは欠陥を特定し、Common Weaknession(CWE)を使用して分類し、その根本原因を説明し、パッチを提案し、テストプランを策定する。
ワンショットプロンプト戦略を用いて、VADER上で6つの最先端LCM(Claude 3.7 Sonnet, Gemini 2.5 Pro, GPT-4.1, GPT-4.5, Grok 3 Beta, o3)をベンチマークする。
我々の結果は現在の状態を示している。
論文 参考訳(メタデータ) (2025-05-26T01:20:44Z) - Benchmarking Prompt Engineering Techniques for Secure Code Generation with GPT Models [1.0874597293913013]
コードセキュリティに対する様々な迅速なエンジニアリング戦略の影響を評価するために,ベンチマークを実装した。
我々は, GPT-3.5-turbo, GPT-4o, GPT-4o-miniで複数のプロンプトエンジニアリング手法を試験した。
テストされたすべてのモデルは、以前に生成されたコードの脆弱性の41.9%から68.7%を検知し、修復する機能を示した。
論文 参考訳(メタデータ) (2025-02-09T21:23:07Z) - There are More Fish in the Sea: Automated Vulnerability Repair via Binary Templates [4.907610470063863]
本稿では,Javaバイナリに対するテンプレートベースの自動脆弱性修復手法を提案する。
Vul4Jデータセットの実験では、TemVURが11の脆弱性の修正に成功した。
TemVURの一般化性を評価するため、MaryVuls4Jデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-11-27T06:59:45Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - Jailbreaking GPT-4V via Self-Adversarial Attacks with System Prompts [64.60375604495883]
GPT-4Vでは,システムに侵入する脆弱性が発見された。
GPT-4を自身に対するレッド・チーム・ツールとして活用することで、盗難システムプロンプトを利用した脱獄プロンプトの可能性を探索することを目指している。
また,システムプロンプトの変更による脱獄攻撃に対する防御効果も評価した。
論文 参考訳(メタデータ) (2023-11-15T17:17:39Z) - Can Large Language Models Find And Fix Vulnerable Software? [0.0]
GPT-4は、その脆弱性の約4倍の脆弱性を同定した。
各脆弱性に対して実行可能な修正を提供し、偽陽性率の低いことを証明した。
GPT-4のコード修正により脆弱性の90%が減少し、コード行数はわずか11%増加した。
論文 参考訳(メタデータ) (2023-08-20T19:33:12Z) - Is Self-Repair a Silver Bullet for Code Generation? [68.02601393906083]
大規模な言語モデルは、コード生成において顕著な適性を示しているが、それでも複雑なタスクを実行するのに苦労している。
自己修復(Self-repair) — モデルが自身のコードをデバッグし、修復する — は、最近、パフォーマンスを向上する一般的な方法になっている。
我々は,Code Llama, GPT-3.5, GPT-4によるHumanEvalとAPPSの自己修復能力について分析した。
論文 参考訳(メタデータ) (2023-06-16T15:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。