論文の概要: VulCoCo: A Simple Yet Effective Method for Detecting Vulnerable Code Clones
- arxiv url: http://arxiv.org/abs/2507.16661v1
- Date: Tue, 22 Jul 2025 14:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:14.164738
- Title: VulCoCo: A Simple Yet Effective Method for Detecting Vulnerable Code Clones
- Title(参考訳): VulCoCo: 脆弱性のあるコードクローンを検出するためのシンプルで効果的な方法
- Authors: Tan Bui, Yan Naing Tun, Thanh Phuc Nguyen, Yindu Su, Ferdian Thung, Yikun Li, Han Wei Ang, Yide Yin, Frank Liauw, Lwin Khin Shar, Eng Lieh Ouh, Ting Zhang, David Lo,
- Abstract要約: VulCoCoは、脆弱なコードクローンを検出する軽量でスケーラブルなアプローチである。
まず、様々なクローンタイプにまたがる合成ベンチマークを構築します。
我々の実験によると、VulCoCoは精度@kと平均精度(MAP)で最先端の手法よりも優れている。
- 参考スコア(独自算出の注目度): 11.650715913321076
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code reuse is common in modern software development, but it can also spread vulnerabilities when developers unknowingly copy risky code. The code fragments that preserve the logic of known vulnerabilities are known as vulnerable code clones (VCCs). Detecting those VCCs is a critical but challenging task. Existing VCC detection tools often rely on syntactic similarity or produce coarse vulnerability predictions without clear explanations, limiting their practical utility. In this paper, we propose VulCoCo, a lightweight and scalable approach that combines embedding-based retrieval with large language model (LLM) validation. Starting from a set of known vulnerable functions, we retrieve syntactically or semantically similar candidate functions from a large corpus and use an LLM to assess whether the candidates retain the vulnerability. Given that there is a lack of reproducible vulnerable code clone benchmarks, we first construct a synthetic benchmark that spans various clone types. Our experiments on the benchmark show that VulCoCo outperforms prior state-of-the-art methods in terms of Precision@k and mean average precision (MAP). In addition, we also demonstrate VulCoCo's effectiveness in real-world projects by submitting 400 pull requests (PRs) to 284 open-source projects. Among them, 75 PRs were merged, and 15 resulted in newly published CVEs. We also provide insights to inspire future work to further improve the precision of vulnerable code clone detection.
- Abstract(参考訳): コード再利用は現代のソフトウェア開発では一般的ですが、開発者がリスクのあるコードを無意識にコピーする場合にも脆弱性を広げることができます。
既知の脆弱性のロジックを保存するコードフラグメントは、脆弱性コードクローン(VCC)として知られている。
それらのVCCを検出することは、重要だが難しい課題だ。
既存のVCC検出ツールは、しばしば構文的類似性に依存するか、明確な説明なしに粗い脆弱性予測を生成し、実用性を制限する。
本稿では,組込み型検索と大規模言語モデル(LLM)検証を組み合わせた軽量でスケーラブルなアプローチであるVulCoCoを提案する。
既知の脆弱性関数の集合から、大規模コーパスから構文的または意味論的に類似した候補関数を抽出し、LSMを用いて、候補が脆弱性を保持するかどうかを評価する。
再現可能な脆弱なコードクローンベンチマークが欠如していることを考えると、まず、さまざまなクローンタイプにまたがる合成ベンチマークを構築します。
VulCoCoはPrecision@kと平均精度(MAP)で従来の最先端手法よりも優れていることを示す。
さらに、400のプルリクエスト(PR)を284のオープンソースプロジェクトに送信することで、VulCoCoの実際のプロジェクトでの有効性を実証しています。
そのうち75機が合併し、15機が新たに発行されたCVEとなった。
また、脆弱性のあるコードクローン検出の精度をさらに向上するために、今後の作業を促す洞察を提供する。
関連論文リスト
- Decompiling Smart Contracts with a Large Language Model [51.49197239479266]
Etherscanの78,047,845のスマートコントラクトがデプロイされているにも関わらず(2025年5月26日現在)、わずか767,520 (1%)がオープンソースである。
この不透明さは、オンチェーンスマートコントラクトバイトコードの自動意味解析を必要とする。
バイトコードを可読でセマンティックに忠実なSolidityコードに変換する,先駆的な逆コンパイルパイプラインを導入する。
論文 参考訳(メタデータ) (2025-06-24T13:42:59Z) - A Slicing-Based Approach for Detecting and Patching Vulnerable Code Clones [0.16727186769396274]
srcVulは、プログラムスライシングとLocality-Sensitive Hashingを組み合わせて、脆弱なコードクローンを特定する、スケーラブルで正確な検出方法である。
srcVulは、既知の脆弱性プログラムとその対応するパッチを分析して、脆弱性関連スライスデータベースを構築する。
クローン検出中、srcVulはターゲットプログラムからのスライシングベクターとデータベース内のベクターを効率的にマッチングし、類似性を識別するパッチを推奨する。
論文 参考訳(メタデータ) (2025-05-05T04:15:55Z) - Benchmarking LLMs and LLM-based Agents in Practical Vulnerability Detection for Code Repositories [8.583591493627276]
JitVulは、各関数をその脆弱性導入とコミットの修正にリンクする脆弱性検出ベンチマークである。
思考・行動・観察と相互言語的文脈を活用するReAct Agentsは,良性のあるコードと区別する上で,LLMよりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2025-03-05T15:22:24Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - LLM-Enhanced Static Analysis for Precise Identification of Vulnerable OSS Versions [12.706661324384319]
オープンソースソフトウェア(OSS)は、そのコラボレーティブな開発モデルとコスト効果の性質から、人気が高まっている。
開発プロジェクトにおける特定のソフトウェアバージョンの採用は、これらのバージョンが脆弱性をもたらす場合にセキュリティリスクをもたらす可能性がある。
脆弱性のあるバージョンを識別する現在の方法は、通常、事前に定義されたルールで静的解析を使用して、脆弱性パッチに関わるコードを分析してトレースする。
本稿では,C/C++で記述されたOSSの脆弱なバージョンを特定するために,Vercationを提案する。
論文 参考訳(メタデータ) (2024-08-14T06:43:06Z) - Uncovering LLM-Generated Code: A Zero-Shot Synthetic Code Detector via Code Rewriting [78.48355455324688]
原符号とLLM書き換え版との類似性に基づく新しいゼロショット合成符号検出器を提案する。
以上の結果から,既存のSOTA合成コンテンツ検出装置よりも顕著な改善が得られた。
論文 参考訳(メタデータ) (2024-05-25T08:57:28Z) - FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [51.898805184427545]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。