論文の概要: PatchSeeker: Mapping NVD Records to their Vulnerability-fixing Commits with LLM Generated Commits and Embeddings
- arxiv url: http://arxiv.org/abs/2509.07540v1
- Date: Tue, 09 Sep 2025 09:16:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.251736
- Title: PatchSeeker: Mapping NVD Records to their Vulnerability-fixing Commits with LLM Generated Commits and Embeddings
- Title(参考訳): PatchSeeker:NVDレコードをLLM生成コミートと埋め込みで脆弱性修正コミートにマッピングする
- Authors: Huu Hung Nguyen, Anh Tuan Nguyen, Thanh Le-Cong, Yikun Li, Han Wei Ang, Yide Yin, Frank Liauw, Shar Lwin Khin, Ouh Eng Lieh, Ting Zhang, David Lo,
- Abstract要約: PatchSeekerは、脆弱性記述と脆弱性記述(VFC)の間のリッチなセマンティックリンクを作成する新しい方法である。
PatchSeekerは、NVD記述から埋め込みを生成し、短いものや非形式的なもののための詳細な要約を合成することによってコミットメッセージを強化する。
我々のアプローチは、ベンチマークデータセット上で最高のパフォーマンスのベースラインであるProspectorよりも59.3%高いMRRと27.9%高いRecall@10を実現している。
- 参考スコア(独自算出の注目度): 7.646332641871716
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software vulnerabilities pose serious risks to modern software ecosystems. While the National Vulnerability Database (NVD) is the authoritative source for cataloging these vulnerabilities, it often lacks explicit links to the corresponding Vulnerability-Fixing Commits (VFCs). VFCs encode precise code changes, enabling vulnerability localization, patch analysis, and dataset construction. Automatically mapping NVD records to their true VFCs is therefore critical. Existing approaches have limitations as they rely on sparse, often noisy commit messages and fail to capture the deep semantics in the vulnerability descriptions. To address this gap, we introduce PatchSeeker, a novel method that leverages large language models to create rich semantic links between vulnerability descriptions and their VFCs. PatchSeeker generates embeddings from NVD descriptions and enhances commit messages by synthesizing detailed summaries for those that are short or uninformative. These generated messages act as a semantic bridge, effectively closing the information gap between natural language reports and low-level code changes. Our approach PatchSeeker achieves 59.3% higher MRR and 27.9% higher Recall@10 than the best-performing baseline, Prospector, on the benchmark dataset. The extended evaluation on recent CVEs further confirms PatchSeeker's effectiveness. Ablation study shows that both the commit message generation method and the selection of backbone LLMs make a positive contribution to PatchSeeker. We also discuss limitations and open challenges to guide future work.
- Abstract(参考訳): ソフトウェア脆弱性は、現代のソフトウェアエコシステムに深刻なリスクをもたらす。
NVD(National Vulnerability Database)はこれらの脆弱性をカタログ化するための権威ある情報源であるが、しばしば対応するVFC(Vulnerability-Fixing Commit)への明示的なリンクを欠いている。
VFCは、脆弱性のローカライゼーション、パッチ分析、データセット構築を可能にする、正確なコード変更をエンコードする。
したがって、NVDレコードを真のVFCに自動的にマッピングすることが重要である。
既存のアプローチでは、スパースに依存し、しばしばノイズの多いコミットメッセージに頼り、脆弱性記述の深いセマンティクスをキャプチャできないため、制限がある。
このギャップに対処するため,脆弱性記述とVFC間のリッチなセマンティックリンクを作成するために,大規模言語モデルを活用する新しい手法であるPatchSeekerを紹介した。
PatchSeekerは、NVD記述から埋め込みを生成し、短いものや非形式的なもののための詳細な要約を合成することによってコミットメッセージを強化する。
これらの生成されたメッセージはセマンティックブリッジとして機能し、自然言語レポートと低レベルのコード変更の間の情報ギャップを効果的に閉じる。
私たちのアプローチであるPatchSeekerは、ベンチマークデータセットで最高のパフォーマンスのベースラインであるProspectorよりも59.3%高いMRRと27.9%高いRecall@10を実現しています。
最近のCVEに対する拡張評価は、PatchSeekerの有効性をさらに確認している。
アブレーション研究は,コミットメッセージ生成法とバックボーンLLMの選択がPatchSeekerに肯定的な貢献をすることを示している。
また,今後の作業の指針として,制限やオープンな課題についても論じる。
関連論文リスト
- VulnRepairEval: An Exploit-Based Evaluation Framework for Assessing Large Language Model Vulnerability Repair Capabilities [41.85494398578654]
VulnRepairEvalは、関数型Proof-of-Conceptエクスプロイトに固定された評価フレームワークである。
我々のフレームワークは、再現可能な微分評価を可能にする包括的でコンテナ化された評価パイプラインを提供する。
論文 参考訳(メタデータ) (2025-09-03T14:06:10Z) - Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data [22.557961978833386]
本稿では,脆弱性パターンのマイニングに優れた大規模言語モデル(LLM)の新たなフレームワークを提案する。
具体的には、脆弱性と対応する固定コードに対する前方および後方の推論プロセスを構築し、高品質な推論データの合成を保証する。
ReVD は LLM ベースのソフトウェア脆弱性検出のための新たな最先端技術,例えば 12.24%-22.77% の精度向上を実現している。
論文 参考訳(メタデータ) (2025-06-09T03:25:23Z) - OMNIGUARD: An Efficient Approach for AI Safety Moderation Across Modalities [54.152681077418805]
現在の検出アプローチは誤りがあり、特にモデル機能のミスマッチした一般化を利用する攻撃の影響を受けやすい。
OMNIGUARDは,言語やモダリティにまたがる有害なプロンプトを検出する手法である。
提案手法は,多言語環境において最強のベースラインよりも11.57%,有害なプロンプト分類精度を向上する。
論文 参考訳(メタデータ) (2025-05-29T05:25:27Z) - AutoPatch: Multi-Agent Framework for Patching Real-World CVE Vulnerabilities [7.812032134834162]
大規模言語モデル(LLM)はソフトウェア開発において有望なツールとして登場した。
彼らの知識は、固定されたカットオフ日に限定されており、新しく公開されたCVEに脆弱なコードを生成する傾向がある。
脆弱なLLM生成コードにパッチを当てるためのフレームワークであるAutoPatchを提案する。
論文 参考訳(メタデータ) (2025-05-07T07:49:05Z) - VulnLLMEval: A Framework for Evaluating Large Language Models in Software Vulnerability Detection and Patching [0.9208007322096533]
大きな言語モデル(LLM)は、コード翻訳のようなタスクにおいて有望であることを示している。
本稿では,C コードの脆弱性を特定し,パッチする際の LLM の性能を評価するためのフレームワーク VulnLLMEval を紹介する。
私たちの研究には、Linuxカーネルから抽出された307の現実世界の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-09-16T22:00:20Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。
SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - CompVPD: Iteratively Identifying Vulnerability Patches Based on Human Validation Results with a Precise Context [16.69634193308039]
パッチの通知が不完全で遅延することが多いため、オープンソースソフトウェアにタイムリーにセキュリティパッチを適用するのは難しい。
本稿では,パッチに関連するコードを正確に識別する多粒度スライシングアルゴリズムと適応拡張アルゴリズムを提案する。
脆弱性の特定には、CompVPDと4つのSOTA(State-of-the-art/practice)アプローチを実証的に比較する。
論文 参考訳(メタデータ) (2023-10-04T02:08:18Z) - Silent Vulnerability-fixing Commit Identification Based on Graph Neural
Networks [4.837912059099674]
VFFINDERは、サイレント脆弱性の自動検出のためのグラフベースのアプローチである。
VFFINDERは、アテンションベースのグラフニューラルネットワークモデルを使用して、脆弱性修正コミットと非修正コミットを区別する。
以上の結果から,VFFINDERは精度272-420%,リコール22-70%,F13.2X-8.2Xに改善した。
論文 参考訳(メタデータ) (2023-09-15T07:51:39Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。