論文の概要: Explaining the Contributing Factors for Vulnerability Detection in Machine Learning
- arxiv url: http://arxiv.org/abs/2406.03577v1
- Date: Wed, 5 Jun 2024 18:48:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 19:14:47.861933
- Title: Explaining the Contributing Factors for Vulnerability Detection in Machine Learning
- Title(参考訳): 機械学習における脆弱性検出のための貢献要因の説明
- Authors: Esma Mouine, Yan Liu, Lu Xiao, Rick Kazman, Xiao Wang,
- Abstract要約: ソフトウェアリポジトリから脆弱性をマイニングし、機械学習技術を使ってソフトウェアの脆弱性を自動的に検出する傾向が増えている。
本研究では、異なる脆弱性機能と3つの代表的な機械学習モデルの組み合わせが、実際の17のプロジェクトにおいて、脆弱性検出の精度にどのように影響するかを検討する。
- 参考スコア(独自算出の注目度): 16.14514846773874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing trend to mine vulnerabilities from software repositories and use machine learning techniques to automatically detect software vulnerabilities. A fundamental but unresolved research question is: how do different factors in the mining and learning process impact the accuracy of identifying vulnerabilities in software projects of varying characteristics? Substantial research has been dedicated in this area, including source code static analysis, software repository mining, and NLP-based machine learning. However, practitioners lack experience regarding the key factors for building a baseline model of the state-of-the-art. In addition, there lacks of experience regarding the transferability of the vulnerability signatures from project to project. This study investigates how the combination of different vulnerability features and three representative machine learning models impact the accuracy of vulnerability detection in 17 real-world projects. We examine two types of vulnerability representations: 1) code features extracted through NLP with varying tokenization strategies and three different embedding techniques (bag-of-words, word2vec, and fastText) and 2) a set of eight architectural metrics that capture the abstract design of the software systems. The three machine learning algorithms include a random forest model, a support vector machines model, and a residual neural network model. The analysis shows a recommended baseline model with signatures extracted through bag-of-words embedding, combined with the random forest, consistently increases the detection accuracy by about 4% compared to other combinations in all 17 projects. Furthermore, we observe the limitation of transferring vulnerability signatures across domains based on our experiments.
- Abstract(参考訳): ソフトウェアリポジトリから脆弱性をマイニングし、機械学習技術を使ってソフトウェア脆弱性を自動的に検出する傾向が増えている。
マイニングと学習プロセスの異なる要因は、様々な特性を持つソフトウェアプロジェクトの脆弱性を特定する精度にどのように影響しますか?
ソースコードの静的解析、ソフトウェアリポジトリマイニング、NLPベースの機械学習など、この分野での実質的な研究が進められている。
しかし、実践者は最先端のベースラインモデルを構築する上で重要な要素についての経験を欠いている。
さらに、プロジェクトからプロジェクトへの脆弱性シグネチャの転送可能性に関する経験が不足している。
本研究では、異なる脆弱性機能と3つの代表的な機械学習モデルの組み合わせが、実際の17のプロジェクトにおいて、脆弱性検出の精度にどのように影響するかを検討する。
脆弱性表現には2つの種類がある。
1) 異なるトークン化戦略と3つの異なる埋め込み技術(bag-of-words, word2vec, fastText)でNLPから抽出されたコード機能。
2) ソフトウェアシステムの抽象的な設計を捉える8つのアーキテクチャメトリクスのセット。
3つの機械学習アルゴリズムには、ランダムフォレストモデル、サポートベクターマシンモデル、残留ニューラルネットワークモデルが含まれる。
解析の結果,単語のバケット埋め込みから抽出したシグネチャをランダムな森林と組み合わせることで,他の17プロジェクトと比較すると,検出精度を約4%向上することがわかった。
さらに,本実験により,脆弱性シグネチャのドメイン間での転送制限についても検討した。
関連論文リスト
- Enhancing Code Vulnerability Detection via Vulnerability-Preserving Data Augmentation [29.72520866016839]
ソースコードの脆弱性検出は、潜在的な攻撃からソフトウェアシステムを保護するための固有の脆弱性を特定することを目的としている。
多くの先行研究は、様々な脆弱性の特徴を見落とし、問題をバイナリ(0-1)分類タスクに単純化した。
FGVulDetは、さまざまな脆弱性タイプの特徴を識別するために複数の分類器を使用し、その出力を組み合わせて特定の脆弱性タイプを特定する。
FGVulDetはGitHubの大規模なデータセットでトレーニングされており、5種類の脆弱性を含んでいる。
論文 参考訳(メタデータ) (2024-04-15T09:10:52Z) - Concrete Surface Crack Detection with Convolutional-based Deep Learning
Models [0.0]
き裂検出は、建物の構造的健康モニタリングと検査に重要である。
畳み込みニューラルネットワーク(CNN)は、ひび割れ検出のための有望なフレームワークとして登場した。
我々は、事前訓練されたディープラーニングアーキテクチャに微調整技術を採用する。
論文 参考訳(メタデータ) (2024-01-13T17:31:12Z) - Using Machine Learning To Identify Software Weaknesses From Software
Requirement Specifications [49.1574468325115]
本研究は、要求仕様からソフトウェア弱点を特定するための効率的な機械学習アルゴリズムを見つけることに焦点を当てる。
ProMISE_exp. Naive Bayes、サポートベクターマシン(SVM)、決定木、ニューラルネットワーク、畳み込みニューラルネットワーク(CNN)アルゴリズムをテストした。
論文 参考訳(メタデータ) (2023-08-10T13:19:10Z) - Deep-Learning-based Vulnerability Detection in Binary Executables [0.0]
本稿では,リカレントニューラルネットワークを用いた教師付き深層学習手法を提案する。
LLVM中間表現を標準化した形で、脆弱なコードの50,651個のデータセットを使用する。
任意の脆弱性の存在を検出するためにバイナリ分類が確立され、正確な脆弱性を特定するためにマルチクラスモデルが訓練された。
論文 参考訳(メタデータ) (2022-11-25T10:33:33Z) - Improving robustness of jet tagging algorithms with adversarial training [56.79800815519762]
本研究では,フレーバータグ付けアルゴリズムの脆弱性について,敵攻撃による検証を行った。
シミュレーション攻撃の影響を緩和する対人訓練戦略を提案する。
論文 参考訳(メタデータ) (2022-03-25T19:57:19Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - A comparative study of neural network techniques for automatic software
vulnerability detection [9.443081849443184]
ソフトウェア脆弱性を検出する最も一般的な方法は静的解析である。
一部の研究者は、検出の知性を改善するために自動特徴抽出機能を持つニューラルネットワークの使用を提案している。
2つの典型的なニューラルネットワークの性能をテストするための広範な実験を実施しました。
論文 参考訳(メタデータ) (2021-04-29T01:47:30Z) - An Explainable Machine Learning-based Network Intrusion Detection System
for Enabling Generalisability in Securing IoT Networks [0.0]
機械学習(ML)ベースのネットワーク侵入検知システムは、組織のセキュリティ姿勢を高める多くの利点をもたらす。
多くのシステムは研究コミュニティで設計・開発されており、特定のデータセットを用いて評価すると、しばしば完璧な検出率を達成する。
本稿では,異なるネットワーク環境と攻撃タイプに設定した共通機能の汎用性を評価することにより,ギャップを狭める。
論文 参考訳(メタデータ) (2021-04-15T00:44:45Z) - Increasing the Confidence of Deep Neural Networks by Coverage Analysis [71.57324258813674]
本稿では、異なる安全でない入力に対してモデルを強化するために、カバレッジパラダイムに基づく軽量な監視アーキテクチャを提案する。
実験結果から,提案手法は強力な対向例とアウト・オブ・ディストリビューション・インプットの両方を検出するのに有効であることが示唆された。
論文 参考訳(メタデータ) (2021-01-28T16:38:26Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。