論文の概要: Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes
- arxiv url: http://arxiv.org/abs/2503.22935v2
- Date: Sat, 31 May 2025 19:45:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.247474
- Title: Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes
- Title(参考訳): セキュリティ脆弱性の追跡のためのコード検索のコンテキスト長と効率性の改善
- Authors: Xueqing Liu, Jiangrui Zheng, Guanqun Yang, Siyan Wen, Qiushi Liu, Xiaoyin Wang,
- Abstract要約: CVEを修正するためのパッチコミットをトレース/検索する既存のアプローチは、2つの大きな課題に悩まされている。
SITPatchTracerは、既知の脆弱性パッチをトレースするスケーラブルで効果的な検索システムである。
SITPatchTracerを使って、GitHub Advisoryデータベース内の35の新しいCVEのパッチリンクをトレースしてマージしました。
- 参考スコア(独自算出の注目度): 7.512949497610182
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: An upstream task for software bill-of-materials (SBOMs) is the accurate localization of the patch that fixes a vulnerability. Nevertheless, existing work reveals a significant gap in the CVEs whose patches exist but are not traceable. Existing works have proposed several approaches to trace/retrieve the patching commit for fixing a CVE. However, they suffer from two major challenges: (1) They cannot effectively handle long diff code of a commit; (2) We are not aware of existing work that scales to the full repository with satisfactory accuracy. Upon identifying this gap, we propose SITPatchTracer, a scalable and effective retrieval system for tracing known vulnerability patches. To handle the context length challenge, SITPatchTracer proposes a novel hierarchical embedding technique which efficiently extends the context coverage to 6x that of existing work while covering all files in the commit. To handle the scalability challenge, SITPatchTracer utilizes a three-phase framework, balancing the effectiveness/efficiency in each phase. The evaluation of SITPatchTracer demonstrates it outperforms existing patch tracing methods (PatchFinder, PatchScout, VFCFinder) by a large margin. Furthermore, SITPatchTracer outperforms VoyageAI, the SOTA commercial code embedding LLM (\$1.8 per 10K commits) on the MRR and Recall@10 by 18\% and 28\% on our two datasets. Using SITPatchTracer, we have successfully traced and merged the patch links for 35 new CVEs in the GitHub Advisory database Our ablation study reveals that hierarchical embedding is a practically effective way of handling long context for patch retrieval.
- Abstract(参考訳): ソフトウェアビルオブマテリアル(SBOM)のアップストリームタスクは、脆弱性を修正するパッチの正確なローカライズである。
それでも既存の研究は、パッチが存在するがトレースできないCVEに重大なギャップがあることを明らかにしている。
既存の作業では、CVEを修正するパッチコミットのトレースと検索にいくつかのアプローチが提案されている。
しかし、(1)コミットの長い差分符号を効果的に扱えない、(2) 十分な精度で全リポジトリにスケールする既存の作業を意識していない、という2つの大きな課題に悩まされている。
このギャップを特定するために,既知の脆弱性をトレースするスケーラブルで効果的な検索システムであるSITPatchTracerを提案する。
SITPatchTracerは、コンテキスト長の課題に対処するため、コミット中のすべてのファイルをカバーしながら、コンテキストカバレッジを既存の作業の6倍に効率的に拡張する、新しい階層的な埋め込み手法を提案する。
スケーラビリティの課題に対処するため、SITPatchTracerは3フェーズフレームワークを使用して、各フェーズの有効性と効率のバランスをとる。
SITPatchTracerの評価は、既存のパッチトレース手法(PatchFinder、PatchScout、VFCFinder)よりも大きなマージンで優れていることを示している。
さらに、SITPatchTracerは、MRRとRecall@10にLLM(\$1.8 per 10Kコミット)を埋め込んだSOTAの商用コードであるVoyageAIを、私たちの2つのデータセットで18~28~8%上回っている。
SITPatchTracerを使って、GitHub Advisoryデータベースで35の新しいCVEのパッチリンクをトレースしてマージすることに成功しました。
関連論文リスト
- Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings [70.26204343623215]
ColPali/ColQwen2は各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用率をもたらす。
本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
論文 参考訳(メタデータ) (2025-06-05T13:06:01Z) - SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。
従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文 参考訳(メタデータ) (2025-05-29T18:28:02Z) - Enhancing Repository-Level Software Repair via Repository-Aware Knowledge Graphs [8.467850621024672]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。
既存のアプローチは、主に大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的コンテキストの理解の制限、推論能力の不足に悩まされている。
本稿では,リポジトリのアーティファクト(課題とプル要求)とエンティティを正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:21:47Z) - How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。
DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文 参考訳(メタデータ) (2025-03-20T19:52:30Z) - ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。
このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文 参考訳(メタデータ) (2025-02-17T12:38:57Z) - Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。
パッチの有無テストは 脆弱性を検出する効果的な方法の1つです
パッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:35:37Z) - SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。
SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。
我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文 参考訳(メタデータ) (2025-01-09T07:54:24Z) - CommitShield: Tracking Vulnerability Introduction and Fix in Version Control Systems [15.037460085046806]
CommitShieldは、コードコミットの脆弱性を検出するツールである。
静的解析ツールのコード解析機能と、大きな言語モデルの自然言語とコード理解機能を組み合わせる。
脆弱性修正検出タスクの最先端メソッドに対して,CommitShieldはリコールを76%~87%改善することを示す。
論文 参考訳(メタデータ) (2025-01-07T08:52:55Z) - Improving Discovery of Known Software Vulnerability For Enhanced Cybersecurity [0.0]
脆弱性検出はCommon Platformion (CPE)文字列のような標準化された識別子に依存する。
ソフトウェアベンダが発行する標準化されていないCPE文字列は、大きな課題を生み出します。
一貫性のない命名規則、バージョニングプラクティスは、データベースをクエリする際のミスマッチを引き起こす。
論文 参考訳(メタデータ) (2024-12-21T12:43:52Z) - Repository-Level Graph Representation Learning for Enhanced Security Patch Detection [22.039868029497942]
本稿ではRepoSPDというリポジトリレベルのセキュリティパッチ検出フレームワークを提案する。
RepoSPDは,1)リポジトリレベルのグラフ構築であるRepoCPG,2)リポジトリレベルでの事前パッチと後パッチのソースコードのマージによるソフトウェアパッチの表現,2) グラフとシーケンスブランチを融合し,複数のコード変更間の関係の理解を目的とした構造対応パッチ表現,3) 意味と構造情報のバランスのモデルを容易にする進行学習,の3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2024-12-11T03:29:56Z) - Learning Graph-based Patch Representations for Identifying and Assessing Silent Vulnerability Fixes [5.983725940750908]
ソフトウェアプロジェクトは多くのサードパーティのライブラリに依存しているため、リスクの高い脆弱性は依存関係チェーンを通じて下流のプロジェクトへと伝播する可能性がある。
無力な脆弱性修正は、ダウンストリームソフトウェアが緊急のセキュリティ問題にタイムリーに気付いておらず、ソフトウェアにセキュリティリスクを生じさせる。
本稿ではGRAphベースのパッチrEpresentationであるGRAPEを提案する。
論文 参考訳(メタデータ) (2024-09-13T03:23:11Z) - The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。
現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。
提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文 参考訳(メタデータ) (2024-09-10T10:12:37Z) - PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software [15.867607171943698]
本稿では,エンドツーエンドの相関学習を併用した2段階のフレームワークを提案する。
PatchFinderは80.63%のRecall@10、平均相反ランク(MRR)は0.7951である。
PatchFinderを実際に適用する場合、最初は533件のパッチコミットを特定し、公式に送ったのですが、そのうち482件はCVE Numbering Authoritiesによって確認されました。
論文 参考訳(メタデータ) (2024-07-24T07:46:24Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Profile of Vulnerability Remediations in Dependencies Using Graph
Analysis [40.35284812745255]
本研究では,グラフ解析手法と改良型グラフ注意畳み込みニューラルネットワーク(GAT)モデルを提案する。
制御フローグラフを分析して、脆弱性の修正を目的とした依存性のアップグレードから発生するアプリケーションの変更をプロファイルします。
結果は、コード脆弱性のリレーショナルダイナミクスに関する微妙な洞察を提供する上で、強化されたGATモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-03-08T02:01:47Z) - ReposVul: A Repository-Level High-Quality Vulnerability Dataset [13.90550557801464]
自動データ収集フレームワークを提案し,ReposVulと呼ばれる最初のリポジトリレベルの高品質な脆弱性データセットを構築した。
提案するフレームワークは,主に3つのモジュールから構成されている。(1)脆弱性解消モジュールは,脆弱性修正に関連するコード変更を,大規模言語モデル (LLM) と静的解析ツールを併用した,絡み合ったパッチから識別することを目的としたもので,(2)脆弱性の相互呼び出し関係の把握を目的とした多言語依存性抽出モジュールで,リポジトリレベル,ファイルレベル,関数レベルを含む各脆弱性パッチに対して,複数の粒度情報を構築する。
論文 参考訳(メタデータ) (2024-01-24T01:27:48Z) - SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。
SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - Just-in-Time Detection of Silent Security Patches [7.840762542485285]
セキュリティパッチは黙秘される可能性がある。つまり、CVEのような包括的なアドバイザリを常に備えているわけではない。
この透明性の欠如により、ユーザーは利用可能なセキュリティアップデートを気にせず、攻撃者が未パッチの脆弱性を悪用する十分な機会を提供する。
本稿では,大規模言語モデル(LLM)を活用して,生成されたコード変更説明を用いてパッチ情報を拡張することを提案する。
論文 参考訳(メタデータ) (2023-12-02T22:53:26Z) - CompVPD: Iteratively Identifying Vulnerability Patches Based on Human Validation Results with a Precise Context [16.69634193308039]
パッチの通知が不完全で遅延することが多いため、オープンソースソフトウェアにタイムリーにセキュリティパッチを適用するのは難しい。
本稿では,パッチに関連するコードを正確に識別する多粒度スライシングアルゴリズムと適応拡張アルゴリズムを提案する。
脆弱性の特定には、CompVPDと4つのSOTA(State-of-the-art/practice)アプローチを実証的に比較する。
論文 参考訳(メタデータ) (2023-10-04T02:08:18Z) - REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文 参考訳(メタデータ) (2023-09-15T02:50:08Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Anchor-Free Person Search [127.88668724345195]
パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。
既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。
この課題に効率的に取り組む最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network(AlignPS)を紹介します。
論文 参考訳(メタデータ) (2021-03-22T07:04:29Z) - CATCH: Context-based Meta Reinforcement Learning for Transferrable
Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。
メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。
また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文 参考訳(メタデータ) (2020-07-18T09:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。