Fugu-MT 論文翻訳(概要): Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes

論文の概要: Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes

arxiv url: http://arxiv.org/abs/2503.22935v1
Date: Sat, 29 Mar 2025 01:53:07 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-01 19:35:56.846368
Title: Improving the Context Length and Efficiency of Code Retrieval for Tracing Security Vulnerability Fixes
Title（参考訳）: セキュリティ脆弱性の追跡のためのコード検索のコンテキスト長と効率性の改善
Authors: Xueqing Liu, Jiangrui Zheng, Guanqun Yang, Siyan Wen, Qiushi Liu,
Abstract要約: 脆弱性管理における重要な課題は、脆弱性を修正するパッチをトレースすることだ。これまでの研究によると、脆弱性データベースにはパッチ情報が欠落していることが多い。 SITPatchTracerはスケーラブルな全文検索システムである。
参考スコア（独自算出の注目度）: 1.3606495556399092
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, the rapid increase of security vulnerabilities has caused major challenges in managing them. One critical task in vulnerability management is tracing the patches that fix a vulnerability. By accurately tracing the patching commits, security stakeholders can precisely identify affected software components, determine vulnerable and fixed versions, assess the severity etc., which facilitates rapid deployment of mitigations. However, previous work has shown that the patch information is often missing in vulnerability databases, including both the National Vulnerability Databases (NVD) and the GitHub Advisory Database, which increases the risk of delayed mitigation, incorrect vulnerability assessment, and potential exploits. Although existing work has proposed several approaches for patch tracing, they suffer from two major challenges: (1) the lack of scalability to the full-repository level, and (2) the lack of study on how to model the semantic similarity between the CVE and the full diff code. Upon identifying this gap, we propose SITPatchTracer, a scalable full-repo full-context retrieval system for security vulnerability patch tracing. SITPatchTracer leverages ElasticSearch, learning-to-rank, and a hierarchical embedding approach based on GritLM, a top-ranked LLM for text embedding with unlimited context length and fast inference speed. The evaluation of SITPatchTracer shows that it achieves a high recall on both evaluated datasets. SITPatchTracer's recall not only outperforms several existing works (PatchFinder, PatchScout, VFCFinder), but also Voyage, the SOTA commercial code embedding API by 13\% and 28\%.
Abstract（参考訳）: 近年、セキュリティ脆弱性の急速な増加は、それらを管理する上で大きな課題を引き起こしている。脆弱性管理における重要な課題のひとつは、脆弱性を修正するパッチのトレースだ。パッチのコミットを正確にトレースすることで、セキュリティステークホルダーは、影響を受けるソフトウェアコンポーネントを正確に識別し、脆弱で固定されたバージョンを判断し、深刻度等を評価し、迅速な修正のデプロイを容易にする。しかし、以前の研究によると、パッチ情報はNational Vulnerability Databases(NVD)やGitHub Advisory Databaseなど、脆弱性データベースに欠落していることが多い。既存の研究ではパッチトレースのアプローチがいくつか提案されているが,(1)完全リポジトリレベルのスケーラビリティの欠如,(2)CVEと完全なdiffコードのセマンティックな類似性をモデル化する方法の欠如,という2つの大きな課題に悩まされている。 SITPatchTracerは,セキュリティ脆弱性のパッチトレースのための,スケーラブルでフルレポなフルコンテキスト検索システムである。 SITPatchTracerはElasticSearch、Learning-to-rank、およびGritLMに基づく階層的な埋め込みアプローチを活用している。 SITPatchTracerの評価は、両方の評価データセットで高いリコールを達成することを示している。 SITPatchTracerのリコールは、既存の作品(PatchFinder、PatchScout、VFCFinder)よりも優れています。

関連論文リスト

Towards Storage-Efficient Visual Document Retrieval: An Empirical Study on Reducing Patch-Level Embeddings [70.26204343623215]
ColPali/ColQwen2は各ページを複数のパッチレベルの埋め込みにエンコードし、過剰なメモリ使用率をもたらす。本研究では,ページごとのパッチ埋め込みを最小性能劣化時に低減する方法について検討する。
論文参考訳（メタデータ） (2025-06-05T13:06:01Z)
SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
Enhancing Repository-Level Software Repair via Repository-Aware Knowledge Graphs [8.467850621024672]
リポジトリレベルのソフトウェア修復は、問題記述とコードパッチの間のセマンティックギャップを埋める際の課題に直面します。既存のアプローチは、主に大きな言語モデル(LLM)に依存しており、意味的曖昧さ、構造的コンテキストの理解の制限、推論能力の不足に悩まされている。本稿では,リポジトリのアーティファクト(課題とプル要求)とエンティティを正確にリンクする新しいリポジトリ対応知識グラフ(KG)を提案する。
論文参考訳（メタデータ） (2025-03-27T17:21:47Z)
How Robust Are Router-LLMs? Analysis of the Fragility of LLM Routing Capabilities [62.474732677086855]
大規模言語モデル(LLM)ルーティングは,計算コストと性能のバランスをとる上で重要な戦略である。 DSCベンチマークを提案する: Diverse, Simple, and Categorizedは、幅広いクエリタイプでルータのパフォーマンスを分類する評価フレームワークである。
論文参考訳（メタデータ） (2025-03-20T19:52:30Z)
ReF Decompile: Relabeling and Function Call Enhanced Decompile [50.86228893636785]
逆コンパイルの目標は、コンパイルされた低レベルコード(アセンブリコードなど)を高レベルプログラミング言語に変換することである。このタスクは、脆弱性識別、マルウェア分析、レガシーソフトウェアマイグレーションなど、さまざまなリバースエンジニアリングアプリケーションをサポートする。
論文参考訳（メタデータ） (2025-02-17T12:38:57Z)
Fine-Grained 1-Day Vulnerability Detection in Binaries via Patch Code Localization [12.73365645156957]
バイナリの1日間の脆弱性は、ソフトウェアセキュリティに対する大きな脅威になっている。パッチの有無テストは脆弱性を検出する効果的な方法の1つですパッチコードとそのコンテキストから安定な値を利用するPLocatorという新しい手法を提案する。
論文参考訳（メタデータ） (2025-01-29T04:35:37Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の競合性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
CommitShield: Tracking Vulnerability Introduction and Fix in Version Control Systems [15.037460085046806]
CommitShieldは、コードコミットの脆弱性を検出するツールである。静的解析ツールのコード解析機能と、大きな言語モデルの自然言語とコード理解機能を組み合わせる。脆弱性修正検出タスクの最先端メソッドに対して,CommitShieldはリコールを76%～87%改善することを示す。
論文参考訳（メタデータ） (2025-01-07T08:52:55Z)
Improving Discovery of Known Software Vulnerability For Enhanced Cybersecurity [0.0]
脆弱性検出はCommon Platformion (CPE)文字列のような標準化された識別子に依存する。ソフトウェアベンダが発行する標準化されていないCPE文字列は、大きな課題を生み出します。一貫性のない命名規則、バージョニングプラクティスは、データベースをクエリする際のミスマッチを引き起こす。
論文参考訳（メタデータ） (2024-12-21T12:43:52Z)
Repository-Level Graph Representation Learning for Enhanced Security Patch Detection [22.039868029497942]
本稿ではRepoSPDというリポジトリレベルのセキュリティパッチ検出フレームワークを提案する。 RepoSPDは,1)リポジトリレベルのグラフ構築であるRepoCPG,2)リポジトリレベルでの事前パッチと後パッチのソースコードのマージによるソフトウェアパッチの表現,2) グラフとシーケンスブランチを融合し,複数のコード変更間の関係の理解を目的とした構造対応パッチ表現,3) 意味と構造情報のバランスのモデルを容易にする進行学習,の3つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2024-12-11T03:29:56Z)
Learning Graph-based Patch Representations for Identifying and Assessing Silent Vulnerability Fixes [5.983725940750908]
ソフトウェアプロジェクトは多くのサードパーティのライブラリに依存しているため、リスクの高い脆弱性は依存関係チェーンを通じて下流のプロジェクトへと伝播する可能性がある。無力な脆弱性修正は、ダウンストリームソフトウェアが緊急のセキュリティ問題にタイムリーに気付いておらず、ソフトウェアにセキュリティリスクを生じさせる。本稿ではGRAphベースのパッチrEpresentationであるGRAPEを提案する。
論文参考訳（メタデータ） (2024-09-13T03:23:11Z)
The Impact of SBOM Generators on Vulnerability Assessment in Python: A Comparison and a Novel Approach [56.4040698609393]
Software Bill of Materials (SBOM) は、ソフトウェア構成における透明性と妥当性を高めるツールとして推奨されている。現在のSBOM生成ツールは、コンポーネントや依存関係を識別する際の不正確さに悩まされることが多い。提案するPIP-sbomは,その欠点に対処する新しいピップインスパイアされたソリューションである。
論文参考訳（メタデータ） (2024-09-10T10:12:37Z)
PatchFinder: A Two-Phase Approach to Security Patch Tracing for Disclosed Vulnerabilities in Open-Source Software [15.867607171943698]
本稿では,エンドツーエンドの相関学習を併用した2段階のフレームワークを提案する。 PatchFinderは80.63%のRecall@10、平均相反ランク(MRR)は0.7951である。 PatchFinderを実際に適用する場合、最初は533件のパッチコミットを特定し、公式に送ったのですが、そのうち482件はCVE Numbering Authoritiesによって確認されました。
論文参考訳（メタデータ） (2024-07-24T07:46:24Z)
Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文参考訳（メタデータ） (2024-03-27T14:34:29Z)
Profile of Vulnerability Remediations in Dependencies Using Graph Analysis [40.35284812745255]
本研究では,グラフ解析手法と改良型グラフ注意畳み込みニューラルネットワーク(GAT)モデルを提案する。制御フローグラフを分析して、脆弱性の修正を目的とした依存性のアップグレードから発生するアプリケーションの変更をプロファイルします。結果は、コード脆弱性のリレーショナルダイナミクスに関する微妙な洞察を提供する上で、強化されたGATモデルの有効性を示す。
論文参考訳（メタデータ） (2024-03-08T02:01:47Z)
ReposVul: A Repository-Level High-Quality Vulnerability Dataset [13.90550557801464]
自動データ収集フレームワークを提案し,ReposVulと呼ばれる最初のリポジトリレベルの高品質な脆弱性データセットを構築した。提案するフレームワークは,主に3つのモジュールから構成されている。(1)脆弱性解消モジュールは,脆弱性修正に関連するコード変更を,大規模言語モデル (LLM) と静的解析ツールを併用した,絡み合ったパッチから識別することを目的としたもので,(2)脆弱性の相互呼び出し関係の把握を目的とした多言語依存性抽出モジュールで,リポジトリレベル,ファイルレベル,関数レベルを含む各脆弱性パッチに対して,複数の粒度情報を構築する。
論文参考訳（メタデータ） (2024-01-24T01:27:48Z)
SliceLocator: Locating Vulnerable Statements with Graph-based Detectors [33.395068754566935]
SliceLocatorは、すべての潜在的な脆弱性トリガリングステートメントから、最も重み付けされたフローパスを選択することで、最も関連性の高いテントフローを特定する。 SliceLocatorは、最先端の4つのGNNベースの脆弱性検知器で一貫して動作することを示す。
論文参考訳（メタデータ） (2024-01-05T10:15:04Z)
Just-in-Time Detection of Silent Security Patches [7.840762542485285]
セキュリティパッチは黙秘される可能性がある。つまり、CVEのような包括的なアドバイザリを常に備えているわけではない。この透明性の欠如により、ユーザーは利用可能なセキュリティアップデートを気にせず、攻撃者が未パッチの脆弱性を悪用する十分な機会を提供する。本稿では,大規模言語モデル(LLM)を活用して,生成されたコード変更説明を用いてパッチ情報を拡張することを提案する。
論文参考訳（メタデータ） (2023-12-02T22:53:26Z)
CompVPD: Iteratively Identifying Vulnerability Patches Based on Human Validation Results with a Precise Context [16.69634193308039]
パッチの通知が不完全で遅延することが多いため、オープンソースソフトウェアにタイムリーにセキュリティパッチを適用するのは難しい。本稿では,パッチに関連するコードを正確に識別する多粒度スライシングアルゴリズムと適応拡張アルゴリズムを提案する。脆弱性の特定には、CompVPDと4つのSOTA(State-of-the-art/practice)アプローチを実証的に比較する。
論文参考訳（メタデータ） (2023-10-04T02:08:18Z)
REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes [40.401211102969356]
本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
論文参考訳（メタデータ） (2023-09-15T02:50:08Z)
VELVET: a noVel Ensemble Learning approach to automatically locate VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。 VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文参考訳（メタデータ） (2021-12-20T22:45:27Z)
Anchor-Free Person Search [127.88668724345195]
パーソンサーチ(person search)は、クエリーの人物を同時にローカライズし、特定することを目的としている。既存の作品の多くはfaster-rcnnのような2段検出器を採用しており、精度は高いが計算オーバーヘッドは高い。この課題に効率的に取り組む最初のアンカーフリーフレームワークであるFeature-Aligned Person Search Network(AlignPS)を紹介します。
論文参考訳（メタデータ） (2021-03-22T07:04:29Z)
CATCH: Context-based Meta Reinforcement Learning for Transferrable Architecture Search [102.67142711824748]
CATCHは、転送可能なarChitecture searcHのための、Context-bAsed meTa強化学習アルゴリズムである。メタラーニングとRLの組み合わせにより、CATCHは検索空間に依存しないまま、新しいタスクに効率的に適応できる。また、ImageNet、COCO、Cityscapesの競合ネットワークとしてクロスドメインアーキテクチャサーチを扱うこともできる。
論文参考訳（メタデータ） (2020-07-18T09:35:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。