論文の概要: VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model
- arxiv url: http://arxiv.org/abs/2308.04662v2
- Date: Thu, 16 May 2024 16:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 19:34:02.902827
- Title: VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model
- Title(参考訳): VulLibGen: 生成前トレーニングモデルによる脆弱性のあるサードパーティライブラリの識別
- Authors: Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Xueqing Liu, Guangtai Liang, Qianxiang Wang, Tao Xie,
- Abstract要約: VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
- 参考スコア(独自算出の注目度): 13.96251273677855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security practitioners maintain vulnerability reports (e.g., GitHub Advisory) to help developers mitigate security risks. An important task for these databases is automatically extracting structured information mentioned in the report, e.g., the affected software packages, to accelerate the defense of the vulnerability ecosystem. However, it is challenging for existing work on affected package identification to achieve a high accuracy. One reason is that all existing work focuses on relatively smaller models, thus they cannot harness the knowledge and semantic capabilities of large language models. To address this limitation, we propose VulLibGen, the first method to use LLM for affected package identification. In contrast to existing work, VulLibGen proposes the novel idea to directly generate the affected package. To improve the accuracy, VulLibGen employs supervised fine-tuning (SFT), retrieval augmented generation (RAG) and a local search algorithm. The local search algorithm is a novel postprocessing algorithm we introduce for reducing the hallucination of the generated packages. Our evaluation results show that VulLibGen has an average accuracy of 0.806 for identifying vulnerable packages in the four most popular ecosystems in GitHub Advisory (Java, JS, Python, Go) while the best average accuracy in previous work is 0.721. Additionally, VulLibGen has high value to security practice: we submitted 60 <vulnerability, affected package> pairs to GitHub Advisory (covers four ecosystems). 34 of them have been accepted and merged and 20 are pending approval. Our code and dataset can be found in the attachments.
- Abstract(参考訳): セキュリティ実践者は、セキュリティリスクを軽減するために脆弱性レポート(GitHub Advisoryなど)を維持する。
これらのデータベースにとって重要なタスクは、レポートに記載されている構造化情報、例えば影響を受けるソフトウェアパッケージを自動的に抽出して、脆弱性エコシステムの防衛を加速することである。
しかし、影響を受けるパッケージ識別に関する既存の作業は、高い精度で達成することは困難である。
一つの理由は、既存の全ての作業が比較的小さなモデルに焦点を当てているため、大きな言語モデルの知識と意味の能力を活用できないからである。
この制限に対処するため、影響を受けるパッケージ識別に LLM を使用する最初の方法である VulLibGen を提案する。
既存の作業とは対照的に、VulLibGenは影響を受けるパッケージを直接生成する新しいアイデアを提案している。
精度を向上させるため、VulLibGenは教師付き微調整(SFT)、検索拡張生成(RAG)、局所探索アルゴリズムを採用している。
局所探索アルゴリズムは、生成したパッケージの幻覚を低減するために導入された新しい後処理アルゴリズムである。
VulLibGenはGitHub Advisory(Java、JS、Python、Go)の4つの最も人気のあるエコシステムにおいて、脆弱性のあるパッケージを識別するための平均精度0.806であり、以前の作業で最高の平均精度は0.721である。
さらに、VulLibGenはセキュリティプラクティスに高い価値があります。私たちはGitHub Advisory(4つのエコシステムをカバー)に60組の<vulnerability, affected package>ペアを提出しました。
34件が承認され、合併され、20件が承認待ちである。
コードとデータセットは添付ファイルにある。
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - "Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される
本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文 参考訳(メタデータ) (2024-06-26T05:36:23Z) - VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。
VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文 参考訳(メタデータ) (2024-06-24T06:39:07Z) - How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。
本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。
リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文 参考訳(メタデータ) (2024-06-03T15:20:06Z) - Empirical Analysis of Vulnerabilities Life Cycle in Golang Ecosystem [0.773844059806915]
Golangの脆弱性のライフサイクルを総合的に調査した。
その結果、Golangエコシステムの66.10%のモジュールが脆弱性の影響を受けていることがわかった。
タグ付けされていない脆弱性やラベル付けされていない脆弱性の背後にある理由を分析することで、タイムリーリリースとインデクシングのパッチバージョンは、エコシステムのセキュリティを著しく向上させる可能性がある。
論文 参考訳(メタデータ) (2023-12-31T14:53:51Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - Multi-Granularity Detector for Vulnerability Fixes [13.653249890867222]
脆弱性修正のためのMiDa(Multi-Granularity Detector for Vulnerability Fixes)を提案する。
MiDasはコミットレベル、ファイルレベル、ハンクレベル、ラインレベルに対応して、コード変更の粒度ごとに異なるニューラルネットワークを構築する。
MiDasは、現在の最先端のベースラインをAUCで4.9%、JavaとPythonベースのデータセットで13.7%上回っている。
論文 参考訳(メタデータ) (2023-05-23T10:06:28Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VulCurator: A Vulnerability-Fixing Commit Detector [8.32137934421055]
VulCuratorは、より豊富な情報ソースでディープラーニングを活用するツールだ。
VulCuratorはF1スコアで最先端のベースラインを最大16.1%上回っている。
論文 参考訳(メタデータ) (2022-09-07T16:11:31Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Automated Mapping of Vulnerability Advisories onto their Fix Commits in
Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。
アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。
影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文 参考訳(メタデータ) (2021-03-24T17:50:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。