論文の概要: VISION: Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation
- arxiv url: http://arxiv.org/abs/2508.18933v1
- Date: Tue, 26 Aug 2025 11:20:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.816265
- Title: VISION: Robust and Interpretable Code Vulnerability Detection Leveraging Counterfactual Augmentation
- Title(参考訳): VISION: 対実的拡張を活用したロバストで解釈可能なコード脆弱性検出
- Authors: David Egea, Barproda Halder, Sanghamitra Dutta,
- Abstract要約: グラフニューラルネットワーク(GNN)は、構造的および論理的コード関係をデータ駆動で学習することができる。
GNNは表面的なコード類似性から'spurious'相関を学習することが多い。
我々は、VISIONと呼ばれる堅牢で解釈可能な脆弱性検出のための統一的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 6.576811224645293
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated detection of vulnerabilities in source code is an essential cybersecurity challenge, underpinning trust in digital systems and services. Graph Neural Networks (GNNs) have emerged as a promising approach as they can learn structural and logical code relationships in a data-driven manner. However, their performance is severely constrained by training data imbalances and label noise. GNNs often learn 'spurious' correlations from superficial code similarities, producing detectors that fail to generalize well to unseen real-world data. In this work, we propose a unified framework for robust and interpretable vulnerability detection, called VISION, to mitigate spurious correlations by systematically augmenting a counterfactual training dataset. Counterfactuals are samples with minimal semantic modifications but opposite labels. Our framework includes: (i) generating counterfactuals by prompting a Large Language Model (LLM); (ii) targeted GNN training on paired code examples with opposite labels; and (iii) graph-based interpretability to identify the crucial code statements relevant for vulnerability predictions while ignoring spurious ones. We find that VISION reduces spurious learning and enables more robust, generalizable detection, improving overall accuracy (from 51.8% to 97.8%), pairwise contrast accuracy (from 4.5% to 95.8%), and worst-group accuracy (from 0.7% to 85.5%) on the Common Weakness Enumeration (CWE)-20 vulnerability. We further demonstrate gains using proposed metrics: intra-class attribution variance, inter-class attribution distance, and node score dependency. We also release CWE-20-CFA, a benchmark of 27,556 functions (real and counterfactual) from the high-impact CWE-20 category. Finally, VISION advances transparent and trustworthy AI-based cybersecurity systems through interactive visualization for human-in-the-loop analysis.
- Abstract(参考訳): ソースコードにおける脆弱性の自動検出は、デジタルシステムやサービスに対する信頼の基盤となる、重要なサイバーセキュリティ上の課題である。
グラフニューラルネットワーク(GNN)は、データ駆動方式で構造的および論理的コード関係を学習可能な、有望なアプローチとして登場した。
しかし、その性能はトレーニングデータの不均衡とラベルノイズによって厳しく制約されている。
GNNは表面的なコード類似性から'spurious'相関を学習し、実世界のデータに対してうまく一般化できない検出器を生成する。
そこで本研究では,第Vsionと呼ばれる,堅牢かつ解釈可能な脆弱性検出のための統合フレームワークを提案し,対実的トレーニングデータセットを体系的に拡張することで,突発的相関を緩和する。
カウンターファクトは、最小限の意味的な修正があるが、反対のラベルを持つサンプルである。
私たちのフレームワークは以下のとおりです。
一 大型言語モデル(LLM)の推進により反事実を生成すること。
(ii) 反対ラベルのペアコード例を対象としたGNNトレーニング
三 脆弱性の予測に関係した重要なコード文を識別し、突発的なものを無視して、グラフベースの解釈可能性。
VISIONは急激な学習を減らし、より堅牢で一般化可能な検出を可能にし、全体的な精度(51.8%から97.8%)、対のコントラスト精度(4.5%から95.8%)、そしてCWE-20脆弱性における最悪のグループ精度(0.7%から85.5%)を改善する。
さらに、クラス内属性分散、クラス間属性距離、ノードスコア依存性など、提案した指標を用いて利得を示す。
また、CWE-20カテゴリから27,556の関数のベンチマークであるCWE-20-CFAをリリースする。
最後に、VISIONは人間のループ分析のためのインタラクティブな可視化を通じて、透明で信頼性の高いAIベースのサイバーセキュリティシステムを前進させる。
関連論文リスト
- LLMxCPG: Context-Aware Vulnerability Detection Through Code Property Graph-Guided Large Language Models [2.891351178680099]
本稿では,コードプロパティグラフ(CPG)とLarge Language Models(LLM)を統合し,堅牢な脆弱性検出を行う新しいフレームワークを提案する。
より簡潔で正確なコードスニペット表現を提供するアプローチの能力は、より大きなコードセグメントの分析を可能にします。
実証的な評価は、検証済みデータセット間でLLMxCPGの有効性を示し、最先端のベースラインよりもF1スコアが15~40%改善されている。
論文 参考訳(メタデータ) (2025-07-22T13:36:33Z) - Explainable Vulnerability Detection in C/C++ Using Edge-Aware Graph Attention Networks [0.2499907423888049]
本稿では,C/C++コードの脆弱性検出のためのグラフベースのフレームワークであるExplainVulDを提案する。
平均精度88.25パーセント、F1スコア48.23パーセントをReVealデータセット上で30の独立ランで達成している。
論文 参考訳(メタデータ) (2025-07-22T12:49:14Z) - It Only Gets Worse: Revisiting DL-Based Vulnerability Detectors from a Practical Perspective [14.271145160443462]
VulTegraは、脆弱性検出のためのスクラッチトレーニングされたDLモデルと事前トレーニングされたDLモデルを比較する。
最先端のSOTA(State-of-the-art)検出器は、依然として低い一貫性、限られた現実世界能力、スケーラビリティの課題に悩まされている。
論文 参考訳(メタデータ) (2025-07-13T08:02:56Z) - SecVulEval: Benchmarking LLMs for Real-World C/C++ Vulnerability Detection [8.440793630384546]
大規模言語モデル(LLM)は、ソフトウェア工学のタスクにおいて有望であることを示している。
高品質なデータセットがないため、脆弱性検出の有効性を評価するのは難しい。
このベンチマークには、1999年から2024年までのC/C++プロジェクトで5,867のCVEをカバーする25,440の関数サンプルが含まれている。
論文 参考訳(メタデータ) (2025-05-26T11:06:03Z) - Provable Robustness of (Graph) Neural Networks Against Data Poisoning and Backdoor Attacks [50.87615167799367]
グラフニューラルネットワーク(GNN)は、特定のグラフのノード特徴をターゲットとして、バックドアを含む有毒な攻撃に対して認証する。
コンボリューションベースのGNNとPageRankベースのGNNの最悪の動作におけるグラフ構造の役割とその接続性に関する基本的な知見を提供する。
論文 参考訳(メタデータ) (2024-07-15T16:12:51Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。