論文の概要: Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study
- arxiv url: http://arxiv.org/abs/2605.13138v1
- Date: Wed, 13 May 2026 08:05:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.890505
- Title: Code-Centric Detection of Vulnerability-Fixing Commits: A Unified Benchmark and Empirical Study
- Title(参考訳): 脆弱性フィクスのコード中心検出:統一ベンチマークと実証的研究
- Authors: Nils Loose, Joseph Bienhüls, Kristoffer Hempel, Felix Mächtle, Thomas Eisenbarth,
- Abstract要約: 本稿では,統合フレームワークによる言語モデルに基づくVFC検出の包括的評価を行う。
コードの変更だけで、モデルが転送可能なセキュリティ関連コードを理解する証拠は見つからない。
グループ階層評価は、ランダムスプリットに比べて約17%のパフォーマンス低下を露呈する。
- 参考スコア(独自算出の注目度): 4.512751676075442
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated detection of vulnerability-fixing commits (VFCs) is critical for timely security patch deployment, as advisory databases lag patch releases by a median of 25 days and many fixes never receive advisories. We present a comprehensive evaluation of code language model based VFC detection through a unified framework consolidating over 20 fragmented datasets spanning more than 180000 commits. Across over 180 experiments with fine-tuned models from 125 M to 14 B parameters, we find no evidence that models acquire transferable security-relevant code understanding from code changes alone. When commit messages are available, they dominate model attention, and when removed, an attribution analysis shows that enriching diffs with additional intra-procedural semantic context does not shift model attention toward the code changes. Group-stratified evaluation exposes approximately 17% performance drops compared to random splits, while temporal splits on aggregated datasets prove unreliable due to compositional shift in the underlying project distributions. At a false positive rate of 0.5% all fine-tuned code-only models miss over 93% of vulnerabilities. Larger and more diverse training data or generative approaches show preliminary improvements but do not resolve the underlying limitations. To support future research on code-centric VFC detection, we release our unified framework and evaluation suite.
- Abstract(参考訳): 脆弱性修正コミット(VFC)の自動検出は、タイムリーなセキュリティパッチデプロイメントには不可欠である。
我々は,180000以上のコミットにまたがる20以上の断片化データセットを統合した統合フレームワークを用いて,コード言語モデルに基づくVFC検出の包括的評価を行う。
125Mから14Bパラメータの微調整されたモデルを用いた180以上の実験では、コードの変更だけでは、転送可能なセキュリティ関連コード理解をモデルが獲得する証拠は見つからない。
コミットメッセージが利用可能になると、それらはモデル注意を支配し、削除されると、帰属分析によって、追加のプロシージャ内セマンティックコンテキストで差分を豊かにするということは、コード変更に対してモデル注意をシフトしないことを示している。
グループ階層化評価では、ランダムな分割に比べて約17%のパフォーマンス低下が露呈する一方、集約されたデータセットの時間分割は、基礎となるプロジェクト分布の組成シフトによって信頼性が低下することが判明した。
偽陽性率0.5%では、微調整されたコードのみのモデルは93%以上の脆弱性を欠いている。
大規模で多様なトレーニングデータや生成アプローチは、予備的な改善を示すが、基礎となる制限は解決しない。
コード中心型VFC検出の今後の研究を支援するため、統合されたフレームワークと評価スイートをリリースする。
関連論文リスト
- KVerus: Scalable and Resilient Formal Verification Proof Generation for Rust Code [15.778121969330476]
我々は、VerusベースのRust検証のための検索拡張システムであるKVerusを紹介する。
KVerusは、コードメタデータ、レムマセマンティクス、ツールチェーン仕様の動的知識ベースを構築する。
複雑なファイル間の依存関係をナビゲートして証明を合成し、共通の進化的変化に直面した時に自動的に証明を修正することができる。
論文 参考訳(メタデータ) (2026-05-05T14:50:24Z) - CrossCommitVuln-Bench: A Dataset of Multi-Commit Python Vulnerabilities Invisible to Per-Commit Static Analysis [0.0]
CrossCommitVuln-Benchは15の現実のPython脆弱性のベンチマークである。
コミット毎検出率(CCDR)は15の脆弱性すべてに対して13%である。
論文 参考訳(メタデータ) (2026-04-23T17:57:50Z) - ClawArena: Benchmarking AI Agents in Evolving Information Environments [61.664633997138004]
ClawArenaは、進化する情報環境におけるAIエージェントの評価のためのベンチマークである。
それぞれのシナリオは、エージェントをノイズ、部分的、時には矛盾するトレースだけに露呈しながら、完全に隠された地上の真実を維持します。
評価は、マルチソースコンフリクト推論、動的信念修正、暗黙のパーソナライゼーションという3つの複合的な課題に基づいて構成される。
論文 参考訳(メタデータ) (2026-04-05T17:55:23Z) - Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Revisiting Multivariate Time Series Forecasting with Missing Values [65.30332997607141]
現実の時系列では欠落値が一般的である。
現在のアプローチでは、計算モジュールを使用して、不足した値を補う、計算済みの予測フレームワークが開発されている。
このフレームワークは、致命的な問題を見落としている: 欠落した値に対して基礎的な真理は存在せず、予測精度を劣化させる可能性のあるエラーの影響を受けやすいようにしている。
本稿では,Information Bottleneck原則に基づく新しいフレームワークであるConsistency-Regularized Information Bottleneck(CRIB)を紹介する。
論文 参考訳(メタデータ) (2025-09-27T20:57:48Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Probing Pre-trained Language Models on Code Changes: Insights from ReDef, a High-Confidence Just-in-Time Defect Prediction Dataset [0.0]
本稿では,22の大規模C/C++プロジェクトから得られた関数レベル修正の信頼性の高いベンチマークであるReDefを紹介する。
欠陥ケースはコミットの反転によって固定され、クリーンケースはポストホック履歴チェックによって検証される。
このパイプラインは3,164の欠陥と10,268のクリーンな修正をもたらし、既存のリソースよりも信頼性の高いラベルを提供する。
論文 参考訳(メタデータ) (2025-09-11T07:07:11Z) - LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。
より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。
実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15~40%改善されている。
論文 参考訳(メタデータ) (2025-07-22T13:36:33Z) - Fixseeker: An Empirical Driven Graph-based Approach for Detecting Silent Vulnerability Fixes in Open Source Software [12.706661324384319]
オープンソースソフトウェアの脆弱性は、ダウンストリームアプリケーションに重大なセキュリティリスクをもたらす。
多くのセキュリティパッチは、セキュリティへの影響を明確に示すことなく、OSSリポジトリの新しいコミットで静かにリリースされている。
グラフベースのアプローチであるFixseekerを提案し、ハンクレベルでのコード変更間の様々な相関関係を抽出し、無声脆弱性の修正を検出する。
論文 参考訳(メタデータ) (2025-03-26T06:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。