論文の概要: Detecting Code Vulnerabilities with Heterogeneous GNN Training
- arxiv url: http://arxiv.org/abs/2502.16835v1
- Date: Mon, 24 Feb 2025 04:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:51:26.622529
- Title: Detecting Code Vulnerabilities with Heterogeneous GNN Training
- Title(参考訳): 異種GNNトレーニングによるコード脆弱性の検出
- Authors: Yu Luo, Weifeng Xu, Dianxiang Xu,
- Abstract要約: グラフニューラルネットワーク(GNN)機械学習は、ソースコードをグラフとしてモデル化することで、有望なアプローチである。
本稿では、ソースコードの効率的かつ言語に依存しない表現として、IPAG(Inter-Procedural Abstract Graphs)を提案する。
また、ソースコードの異なる特徴を抽出する複数のサブグラフを組み込んだ異種注意GNN(HAGNN)モデルを提案する。
- 参考スコア(独自算出の注目度): 3.1333320740278627
- License:
- Abstract: Detecting vulnerabilities in source code is a critical task for software security assurance. Graph Neural Network (GNN) machine learning can be a promising approach by modeling source code as graphs. Early approaches treated code elements uniformly, limiting their capacity to model diverse relationships that contribute to various vulnerabilities. Recent research addresses this limitation by considering the heterogeneity of node types and using Gated Graph Neural Networks (GGNN) to aggregate node information through different edge types. However, these edges primarily function as conduits for passing node information and may not capture detailed characteristics of distinct edge types. This paper presents Inter-Procedural Abstract Graphs (IPAGs) as an efficient, language-agnostic representation of source code, complemented by heterogeneous GNN training for vulnerability prediction. IPAGs capture the structural and contextual properties of code elements and their relationships. We also propose a Heterogeneous Attention GNN (HAGNN) model that incorporates multiple subgraphs capturing different features of source code. These subgraphs are learned separately and combined using a global attention mechanism, followed by a fully connected neural network for final classification. The proposed approach has achieved up to 96.6% accuracy on a large C dataset of 108 vulnerability types and 97.8% on a large Java dataset of 114 vulnerability types, outperforming state-of-the-art methods. Its applications to various real-world software projects have also demonstrated low false positive rates.
- Abstract(参考訳): ソースコードの脆弱性を検出することは、ソフトウェアセキュリティの保証にとって重要なタスクである。
グラフニューラルネットワーク(GNN)機械学習は、ソースコードをグラフとしてモデル化することで、有望なアプローチである。
初期のアプローチでは、コード要素を均一に扱い、さまざまな脆弱性に寄与するさまざまな関係をモデル化する能力を制限する。
最近の研究は、ノードタイプの不均一性を考慮し、異なるエッジタイプを通してノード情報を集約するためにGGNN(Gated Graph Neural Networks)を用いて、この制限に対処している。
しかし、これらのエッジは主にノード情報を渡すためのコンデュットとして機能し、異なるエッジタイプの詳細な特徴を捉えない可能性がある。
本稿では,脆弱性予測のための異種GNNトレーニングを補完した,ソースコードの効率的かつ言語に依存しない表現として,IPAG(Inter-Procedural Abstract Graphs)を提案する。
IPAGは、コード要素とその関係の構造的および文脈的特性をキャプチャする。
また、ソースコードの異なる特徴を抽出する複数のサブグラフを組み込んだ異種注意GNN(HAGNN)モデルを提案する。
これらのサブグラフは、グローバルアテンションメカニズムを使用して個別に学習され、その後、最終分類のための完全に接続されたニューラルネットワークが続く。
提案されたアプローチは、108の脆弱性型の大規模Cデータセットで96.6%、114の脆弱性型の大規模Javaデータセットで97.8%の精度で、最先端のメソッドよりも優れている。
様々な現実世界のソフトウェアプロジェクトへの応用も、偽陽性率を低く示している。
関連論文リスト
- A Combined Feature Embedding Tools for Multi-Class Software Defect and Identification [2.2020053359163305]
本稿では,GraphCodeBERTとGraph Convolutional Networkを組み合わせた実験手法であるCodeGraphNetを提案する。
この方法は、機能間の複雑な関係をキャプチャし、より正確な脆弱性の識別と分離を可能にする。
決定木とニューラルネットワークのハイブリッドであるDeepTreeモデルは、最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-11-26T17:33:02Z) - Source Code Vulnerability Detection: Combining Code Language Models and Code Property Graphs [5.953617559607503]
Vul-LMGNNは、事前訓練されたコード言語モデルとコードプロパティグラフを組み合わせた統一モデルである。
Vul-LMGNNは、様々なコード属性を統一的なグラフ構造に統合するコードプロパティグラフを構築する。
属性間の依存性情報を効果的に保持するために,ゲートコードグラフニューラルネットワークを導入する。
論文 参考訳(メタデータ) (2024-04-23T03:48:18Z) - Structure-Aware Code Vulnerability Analysis With Graph Neural Networks [0.0]
本研究では,ソフトウェアコードの脆弱性検出におけるグラフニューラルネットワーク(GNN)の有効性について検討する。
主な焦点は、脆弱なコードセグメントを特定し、それらの固定バージョンと区別する際のGNNの一般的な適用性を評価することである。
実験により、特定のグラフ要素のプルーニングや特定の種類のコード表現の排除など、特定のモデル構成がパフォーマンスを著しく向上させることが示された。
論文 参考訳(メタデータ) (2023-07-21T09:35:29Z) - NodeFormer: A Scalable Graph Structure Learning Transformer for Node
Classification [70.51126383984555]
本稿では,任意のノード間のノード信号を効率的に伝搬する全ペアメッセージパッシング方式を提案する。
効率的な計算は、カーナライズされたGumbel-Softmax演算子によって実現される。
グラフ上のノード分類を含む様々なタスクにおいて,本手法の有望な有効性を示す実験を行った。
論文 参考訳(メタデータ) (2023-06-14T09:21:15Z) - Learning Strong Graph Neural Networks with Weak Information [64.64996100343602]
我々は、弱い情報(GLWI)を用いたグラフ学習問題に対する原則的アプローチを開発する。
非完全構造を持つ入力グラフ上で長距離情報伝搬を行うデュアルチャネルGNNフレームワークであるD$2$PTを提案するが、グローバルな意味的類似性を符号化するグローバルグラフも提案する。
論文 参考訳(メタデータ) (2023-05-29T04:51:09Z) - Sequential Graph Neural Networks for Source Code Vulnerability
Identification [5.582101184758527]
我々は,C/C++ソースコードの脆弱性データセットを適切にキュレートし,モデルの開発を支援する。
また,多数のコード意味表現を学習するための連続グラフニューラルネットワーク(SEGNN)という,グラフニューラルネットワークに基づく学習フレームワークを提案する。
グラフ分類設定における2つのデータセットと4つのベースライン手法による評価は、最先端の結果を示している。
論文 参考訳(メタデータ) (2023-05-23T17:25:51Z) - A Robust Stacking Framework for Training Deep Graph Models with
Multifaceted Node Features [61.92791503017341]
数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。
IID(non-graph)データをGNNに簡単に組み込むことはできない。
本稿では、グラフ認識の伝播をIDデータに意図した任意のモデルで融合するロバストな積み重ねフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:46:33Z) - ReGVD: Revisiting Graph Neural Networks for Vulnerability Detection [20.65271290295621]
本稿では,脆弱性検出のためのグラフネットワークモデルReGVDを提案する。
特にReGVDは、あるソースコードをフラットなトークンのシーケンスと見なしている。
我々は、脆弱性検出のためのCodeXGLUEから、実世界のベンチマークデータセット上で最も高い精度を得る。
論文 参考訳(メタデータ) (2021-10-14T12:44:38Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。