Fugu-MT 論文翻訳(概要): VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model

論文の概要: VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model

arxiv url: http://arxiv.org/abs/2308.04662v2
Date: Thu, 16 May 2024 16:15:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-17 19:34:02.902827
Title: VulLibGen: Identifying Vulnerable Third-Party Libraries via Generative Pre-Trained Model
Title（参考訳）: VulLibGen: 生成前トレーニングモデルによる脆弱性のあるサードパーティライブラリの識別
Authors: Tianyu Chen, Lin Li, Liuchuan Zhu, Zongyang Li, Xueqing Liu, Guangtai Liang, Qianxiang Wang, Tao Xie,
Abstract要約: VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。脆弱性のあるパッケージを識別するための平均精度は0.806である。私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
参考スコア（独自算出の注目度）: 13.96251273677855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Security practitioners maintain vulnerability reports (e.g., GitHub Advisory) to help developers mitigate security risks. An important task for these databases is automatically extracting structured information mentioned in the report, e.g., the affected software packages, to accelerate the defense of the vulnerability ecosystem. However, it is challenging for existing work on affected package identification to achieve a high accuracy. One reason is that all existing work focuses on relatively smaller models, thus they cannot harness the knowledge and semantic capabilities of large language models. To address this limitation, we propose VulLibGen, the first method to use LLM for affected package identification. In contrast to existing work, VulLibGen proposes the novel idea to directly generate the affected package. To improve the accuracy, VulLibGen employs supervised fine-tuning (SFT), retrieval augmented generation (RAG) and a local search algorithm. The local search algorithm is a novel postprocessing algorithm we introduce for reducing the hallucination of the generated packages. Our evaluation results show that VulLibGen has an average accuracy of 0.806 for identifying vulnerable packages in the four most popular ecosystems in GitHub Advisory (Java, JS, Python, Go) while the best average accuracy in previous work is 0.721. Additionally, VulLibGen has high value to security practice: we submitted 60 <vulnerability, affected package> pairs to GitHub Advisory (covers four ecosystems). 34 of them have been accepted and merged and 20 are pending approval. Our code and dataset can be found in the attachments.
Abstract（参考訳）: セキュリティ実践者は、セキュリティリスクを軽減するために脆弱性レポート(GitHub Advisoryなど)を維持する。これらのデータベースにとって重要なタスクは、レポートに記載されている構造化情報、例えば影響を受けるソフトウェアパッケージを自動的に抽出して、脆弱性エコシステムの防衛を加速することである。しかし、影響を受けるパッケージ識別に関する既存の作業は、高い精度で達成することは困難である。一つの理由は、既存の全ての作業が比較的小さなモデルに焦点を当てているため、大きな言語モデルの知識と意味の能力を活用できないからである。この制限に対処するため、影響を受けるパッケージ識別に LLM を使用する最初の方法である VulLibGen を提案する。既存の作業とは対照的に、VulLibGenは影響を受けるパッケージを直接生成する新しいアイデアを提案している。精度を向上させるため、VulLibGenは教師付き微調整(SFT)、検索拡張生成(RAG)、局所探索アルゴリズムを採用している。局所探索アルゴリズムは、生成したパッケージの幻覚を低減するために導入された新しい後処理アルゴリズムである。 VulLibGenはGitHub Advisory(Java、JS、Python、Go)の4つの最も人気のあるエコシステムにおいて、脆弱性のあるパッケージを識別するための平均精度0.806であり、以前の作業で最高の平均精度は0.721である。さらに、VulLibGenはセキュリティプラクティスに高い価値があります。私たちはGitHub Advisory(4つのエコシステムをカバー)に60組の<vulnerability, affected package>ペアを提出しました。 34件が承認され、合併され、20件が承認待ちである。コードとデータセットは添付ファイルにある。

関連論文リスト

Bridging Expert Reasoning and LLM Detection: A Knowledge-Driven Framework for Malicious Packages [10.858565849895314]
NPMやPyPIといったオープンソースエコシステムは、サプライチェーン攻撃によってますます標的になってきている。我々は、専門家による解析的推論を自動化された悪意のあるパッケージ検出に統合する、検索強化世代(RAG)ベースのフレームワークであるIntelGuardを紹介する。
論文参考訳（メタデータ） (2026-01-23T05:31:12Z)
Trace: Securing Smart Contract Repository Against Access Control Vulnerability [58.02691083789239]
GitHubはソースコード、ドキュメント、設定ファイルを含む多数のスマートコントラクトリポジトリをホストしている。サードパーティの開発者は、カスタム開発中にこれらのリポジトリからコードを参照、再利用、フォークすることが多い。スマートコントラクトの脆弱性を検出する既存のツールは、複雑なリポジトリを扱う能力に制限されている。
論文参考訳（メタデータ） (2025-10-22T05:18:28Z)
What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs [46.325755802511026]
我々は、LLM(Large Language Model)と細調整された小言語モデルに基づく2つのアプローチを統合するデュアルメタルパイプラインであるLMを開発した。 LMは、OOBまたはUAFの脆弱性に対処する最近のLinuxカーネルのパッチ5,140のうち111つを、手作業による検証によって90の正の正が確認された。
論文参考訳（メタデータ） (2025-09-26T18:06:36Z)
VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文参考訳（メタデータ） (2025-09-15T02:25:38Z)
An Empirical Study of Vulnerabilities in Python Packages and Their Detection [12.629138654621983]
この記事では、Pythonパッケージの脆弱性の包括的なベンチマークスイートであるPyVulを紹介する。 PyVulには、公表された1,157の開発者認証脆弱性が含まれており、それぞれが影響を受けるパッケージにリンクされている。ラベル精度を向上し、100%コミットレベルと94%関数レベルの精度を達成するために、LCM支援データクリーニング手法が組み込まれている。
論文参考訳（メタデータ） (2025-09-04T14:38:28Z)
Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文参考訳（メタデータ） (2025-06-24T13:42:59Z)
FuncVul: An Effective Function Level Vulnerability Detection Model using LLM and Code Chunk [8.736988409083981]
ソフトウェアサプライチェーンの脆弱性は、攻撃者が広く使われているパッケージやライブラリに脆弱性のあるコードを注入する際に発生する。本稿では,C/C++とPythonの関数レベル脆弱性検出のためのコードチャンクベースモデルであるFuncVulを紹介する。 FuncVulは、より小さくクリティカルなコードセグメントに焦点を当てて、関数内の複数の脆弱性を特定する。
論文参考訳（メタデータ） (2025-06-24T09:30:40Z)
CyberGym: Evaluating AI Agents' Cybersecurity Capabilities with Real-World Vulnerabilities at Scale [46.76144797837242]
大規模言語モデル(LLM)エージェントは、自律的なサイバーセキュリティタスクの処理において、ますます熟練している。既存のベンチマークは不足していて、現実のシナリオをキャプチャできなかったり、スコープが限られていたりします。我々はCyberGymを紹介した。CyberGymは1,507の現実世界の脆弱性を特徴とする大規模かつ高品質なサイバーセキュリティ評価フレームワークである。
論文参考訳（メタデータ） (2025-06-03T07:35:14Z)
Eradicating the Unseen: Detecting, Exploiting, and Remediating a Path Traversal Vulnerability across GitHub [1.2124551005857036]
オープンソースソフトウェアの脆弱性は、現代のデジタルエコシステムにカスケード効果をもたらす可能性がある。 1,756の脆弱性のあるオープンソースプロジェクトを特定しました。当社は、この脆弱性をメンテナに責任を持って開示し、報告された脆弱性の14%が再報告されている。
論文参考訳（メタデータ） (2025-05-26T16:29:21Z)
Detecting Malicious Source Code in PyPI Packages with LLMs: Does RAG Come in Handy? [6.7341750484636975]
PyPIのようなオープンソースのエコシステムにおける悪意あるソフトウェアパッケージは、セキュリティ上のリスクを増大させる。本研究では,Large Language Models (LLM) とRetrieval-Augmented Generation (RAG) の有効性を実証的に評価する。
論文参考訳（メタデータ） (2025-04-18T16:11:59Z)
Automating the Detection of Code Vulnerabilities by Analyzing GitHub Issues [6.6681265451722895]
我々は、脆弱性検出に関連するGitHubの問題を分類するために特別に設計された新しいデータセットを紹介します。結果は、早期脆弱性検出における現実世界のアプリケーションに対するこのアプローチの可能性を示している。この作業は、オープンソースのソフトウェアエコシステムのセキュリティを強化する可能性がある。
論文参考訳（メタデータ） (2025-01-09T14:13:39Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
A Machine Learning-Based Approach For Detecting Malicious PyPI Packages [4.311626046942916]
現代のソフトウェア開発では、外部ライブラリやパッケージの使用が増えている。この再利用コードへの依存は、悪意のあるパッケージという形でデプロイされたソフトウェアに重大なリスクをもたらす。本稿では、機械学習と静的解析を用いて、パッケージのメタデータ、コード、ファイル、テキストの特徴を調べるデータ駆動型アプローチを提案する。
論文参考訳（メタデータ） (2024-12-06T18:49:06Z)
RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。 RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。 RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文参考訳（メタデータ） (2024-11-12T13:30:06Z)
"Glue pizza and eat rocks" -- Exploiting Vulnerabilities in Retrieval-Augmented Generative Models [74.05368440735468]
Retrieval-Augmented Generative (RAG)モデルにより大規模言語モデル(LLM)が強化される本稿では,これらの知識基盤の開放性を敵が活用できるセキュリティ上の脅威を示す。
論文参考訳（メタデータ） (2024-06-26T05:36:23Z)
VulZoo: A Comprehensive Vulnerability Intelligence Dataset [12.229092589037808]
VulZooは17の人気の脆弱性情報ソースをカバーする、包括的な脆弱性インテリジェンスデータセットである。 VulZooを一般公開し、今後の研究を容易にするためにインクリメンタルアップデートでメンテナンスしています。
論文参考訳（メタデータ） (2024-06-24T06:39:07Z)
How to Understand Whole Software Repository? [64.19431011897515]
リポジトリ全体に対する優れた理解は、自動ソフトウェアエンジニアリング(ASE)への重要な道になるでしょう。本研究では,リポジトリ全体を包括的に理解するためのエージェントによるRepoUnderstanderという新しい手法を開発した。リポジトリレベルの知識をより活用するために、エージェントをまとめ、分析し、計画する。
論文参考訳（メタデータ） (2024-06-03T15:20:06Z)
Empirical Analysis of Vulnerabilities Life Cycle in Golang Ecosystem [0.773844059806915]
Golangの脆弱性のライフサイクルを総合的に調査した。その結果、Golangエコシステムの66.10%のモジュールが脆弱性の影響を受けていることがわかった。タグ付けされていない脆弱性やラベル付けされていない脆弱性の背後にある理由を分析することで、タイムリーリリースとインデクシングのパッチバージョンは、エコシステムのセキュリティを著しく向上させる可能性がある。
論文参考訳（メタデータ） (2023-12-31T14:53:51Z)
On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。 Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文参考訳（メタデータ） (2023-06-08T20:14:46Z)
Multi-Granularity Detector for Vulnerability Fixes [13.653249890867222]
脆弱性修正のためのMiDa(Multi-Granularity Detector for Vulnerability Fixes)を提案する。 MiDasはコミットレベル、ファイルレベル、ハンクレベル、ラインレベルに対応して、コード変更の粒度ごとに異なるニューラルネットワークを構築する。 MiDasは、現在の最先端のベースラインをAUCで4.9%、JavaとPythonベースのデータセットで13.7%上回っている。
論文参考訳（メタデータ） (2023-05-23T10:06:28Z)
CodeLMSec Benchmark: Systematically Evaluating and Finding Security Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文参考訳（メタデータ） (2023-02-08T11:54:07Z)
VulCurator: A Vulnerability-Fixing Commit Detector [8.32137934421055]
VulCuratorは、より豊富な情報ソースでディープラーニングを活用するツールだ。 VulCuratorはF1スコアで最先端のベースラインを最大16.1%上回っている。
論文参考訳（メタデータ） (2022-09-07T16:11:31Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Automated Mapping of Vulnerability Advisories onto their Fix Commits in Open Source Repositories [7.629717457706326]
実践経験と機械学習(ML)を組み合わせたアプローチを提案する。アドバイザリから脆弱性に関する鍵情報を含むアドバイザリレコードを抽出する。影響を受けるプロジェクトのソースコードリポジトリから、候補となる修正コミットのサブセットを取得する。
論文参考訳（メタデータ） (2021-03-24T17:50:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。