論文の概要: VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements
- arxiv url: http://arxiv.org/abs/2112.10893v1
- Date: Mon, 20 Dec 2021 22:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:44:19.986934
- Title: VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements
- Title(参考訳): VELVET: VulnErable sTatementsを自動的に特定するnoVel Ensemble Learningアプローチ
- Authors: Yangruibo Ding, Sahil Suneja, Yunhui Zheng, Jim Laredo, Alessandro
Morari, Gail Kaiser, Baishakhi Ray
- Abstract要約: 本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
- 参考スコア(独自算出の注目度): 62.93814803258067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically locating vulnerable statements in source code is crucial to
assure software security and alleviate developers' debugging efforts. This
becomes even more important in today's software ecosystem, where vulnerable
code can flow easily and unwittingly within and across software repositories
like GitHub. Across such millions of lines of code, traditional static and
dynamic approaches struggle to scale. Although existing machine-learning-based
approaches look promising in such a setting, most work detects vulnerable code
at a higher granularity -- at the method or file level. Thus, developers still
need to inspect a significant amount of code to locate the vulnerable
statement(s) that need to be fixed.
This paper presents VELVET, a novel ensemble learning approach to locate
vulnerable statements. Our model combines graph-based and sequence-based neural
networks to successfully capture the local and global context of a program
graph and effectively understand code semantics and vulnerable patterns. To
study VELVET's effectiveness, we use an off-the-shelf synthetic dataset and a
recently published real-world dataset. In the static analysis setting, where
vulnerable functions are not detected in advance, VELVET achieves 4.5x better
performance than the baseline static analyzers on the real-world data. For the
isolated vulnerability localization task, where we assume the vulnerability of
a function is known while the specific vulnerable statement is unknown, we
compare VELVET with several neural networks that also attend to local and
global context of code. VELVET achieves 99.6% and 43.6% top-1 accuracy over
synthetic data and real-world data, respectively, outperforming the baseline
deep-learning models by 5.3-29.0%.
- Abstract(参考訳): 脆弱性のあるステートメントを自動的にソースコードに配置することは、ソフトウェアセキュリティの確保と開発者のデバッグ作業の軽減に不可欠である。
今日のソフトウェアエコシステムでは、脆弱性のあるコードがGitHubのようなソフトウェアリポジトリ内で、無意識に簡単に流れます。
何百万行ものコードにまたがって、従来の静的アプローチと動的アプローチはスケールするのに苦労します。
既存の機械学習ベースのアプローチは、このような環境では有望に見えるが、ほとんどの作業は、メソッドやファイルレベルで、より高い粒度で脆弱なコードを検出する。
したがって、開発者は修正が必要な脆弱性のあるステートメントを見つけるために、かなりの量のコードを検査する必要がある。
本稿では,脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
このモデルは、グラフベースとシーケンスベースのニューラルネットワークを組み合わせて、プログラムグラフのローカルおよびグローバルコンテキストをうまく捉え、コードのセマンティクスと脆弱なパターンを効果的に理解する。
VELVETの有効性を研究するために、市販の合成データセットと最近公開された実世界のデータセットを用いる。
脆弱な関数が事前に検出されない静的解析設定では、VELVETは実世界のデータ上のベースライン静的解析器よりも4.5倍高いパフォーマンスを達成する。
特定の脆弱なステートメントが不明な関数の脆弱性が分かっていると仮定した分離脆弱性ローカライズタスクでは、velvetと、ローカルおよびグローバルなコードコンテキストにも関与する複数のニューラルネットワークを比較した。
VELVETは合成データと実世界のデータに対して99.6%と43.6%の精度を達成し、ベースラインのディープラーニングモデルを5.3-29.0%上回っている。
関連論文リスト
- A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Sequential Graph Neural Networks for Source Code Vulnerability
Identification [5.582101184758527]
我々は,C/C++ソースコードの脆弱性データセットを適切にキュレートし,モデルの開発を支援する。
また,多数のコード意味表現を学習するための連続グラフニューラルネットワーク(SEGNN)という,グラフニューラルネットワークに基づく学習フレームワークを提案する。
グラフ分類設定における2つのデータセットと4つのベースライン手法による評価は、最先端の結果を示している。
論文 参考訳(メタデータ) (2023-05-23T17:25:51Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - DCDetector: An IoT terminal vulnerability mining system based on
distributed deep ensemble learning under source code representation [2.561778620560749]
この研究の目的は、C/C++のような高レベルの言語のソースコードの脆弱性をインテリジェントに検出することである。
これにより、ソースコードのセンシティブな文関連スライスをコード表現し、分散深層学習モデルの設計により脆弱性を検出することができる。
実験により,従来の静的解析の偽陽性率を低減し,機械学習の性能と精度を向上させることができることがわかった。
論文 参考訳(メタデータ) (2022-11-29T14:19:14Z) - An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability [23.151478493811652]
脆弱性ラベリングは現在、機械学習ツールの助けを借りて、専門家によって関数またはプログラムレベルで実施されている。
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - Cross Project Software Vulnerability Detection via Domain Adaptation and
Max-Margin Principle [21.684043656053106]
ソフトウェア脆弱性(SV)は、コンピュータソフトウェアの普及により、一般的で深刻な問題となっている。
これら2つの重要な問題に対処するための新しいエンドツーエンドアプローチを提案する。
提案手法は, SVDにおける最重要尺度であるF1尺度の精度を, 使用データセットの2番目に高い手法と比較して1.83%から6.25%に向上させる。
論文 参考訳(メタデータ) (2022-09-19T23:47:22Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。