論文の概要: VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements
- arxiv url: http://arxiv.org/abs/2112.10893v1
- Date: Mon, 20 Dec 2021 22:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:44:19.986934
- Title: VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements
- Title(参考訳): VELVET: VulnErable sTatementsを自動的に特定するnoVel Ensemble Learningアプローチ
- Authors: Yangruibo Ding, Sahil Suneja, Yunhui Zheng, Jim Laredo, Alessandro
Morari, Gail Kaiser, Baishakhi Ray
- Abstract要約: 本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
- 参考スコア(独自算出の注目度): 62.93814803258067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatically locating vulnerable statements in source code is crucial to
assure software security and alleviate developers' debugging efforts. This
becomes even more important in today's software ecosystem, where vulnerable
code can flow easily and unwittingly within and across software repositories
like GitHub. Across such millions of lines of code, traditional static and
dynamic approaches struggle to scale. Although existing machine-learning-based
approaches look promising in such a setting, most work detects vulnerable code
at a higher granularity -- at the method or file level. Thus, developers still
need to inspect a significant amount of code to locate the vulnerable
statement(s) that need to be fixed.
This paper presents VELVET, a novel ensemble learning approach to locate
vulnerable statements. Our model combines graph-based and sequence-based neural
networks to successfully capture the local and global context of a program
graph and effectively understand code semantics and vulnerable patterns. To
study VELVET's effectiveness, we use an off-the-shelf synthetic dataset and a
recently published real-world dataset. In the static analysis setting, where
vulnerable functions are not detected in advance, VELVET achieves 4.5x better
performance than the baseline static analyzers on the real-world data. For the
isolated vulnerability localization task, where we assume the vulnerability of
a function is known while the specific vulnerable statement is unknown, we
compare VELVET with several neural networks that also attend to local and
global context of code. VELVET achieves 99.6% and 43.6% top-1 accuracy over
synthetic data and real-world data, respectively, outperforming the baseline
deep-learning models by 5.3-29.0%.
- Abstract(参考訳): 脆弱性のあるステートメントを自動的にソースコードに配置することは、ソフトウェアセキュリティの確保と開発者のデバッグ作業の軽減に不可欠である。
今日のソフトウェアエコシステムでは、脆弱性のあるコードがGitHubのようなソフトウェアリポジトリ内で、無意識に簡単に流れます。
何百万行ものコードにまたがって、従来の静的アプローチと動的アプローチはスケールするのに苦労します。
既存の機械学習ベースのアプローチは、このような環境では有望に見えるが、ほとんどの作業は、メソッドやファイルレベルで、より高い粒度で脆弱なコードを検出する。
したがって、開発者は修正が必要な脆弱性のあるステートメントを見つけるために、かなりの量のコードを検査する必要がある。
本稿では,脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
このモデルは、グラフベースとシーケンスベースのニューラルネットワークを組み合わせて、プログラムグラフのローカルおよびグローバルコンテキストをうまく捉え、コードのセマンティクスと脆弱なパターンを効果的に理解する。
VELVETの有効性を研究するために、市販の合成データセットと最近公開された実世界のデータセットを用いる。
脆弱な関数が事前に検出されない静的解析設定では、VELVETは実世界のデータ上のベースライン静的解析器よりも4.5倍高いパフォーマンスを達成する。
特定の脆弱なステートメントが不明な関数の脆弱性が分かっていると仮定した分離脆弱性ローカライズタスクでは、velvetと、ローカルおよびグローバルなコードコンテキストにも関与する複数のニューラルネットワークを比較した。
VELVETは合成データと実世界のデータに対して99.6%と43.6%の精度を達成し、ベースラインのディープラーニングモデルを5.3-29.0%上回っている。
関連論文リスト
- Security Vulnerability Detection with Multitask Self-Instructed Fine-Tuning of Large Language Models [8.167614500821223]
脆弱性検出のためのMSIVD, マルチタスクによる自己指示型微調整を, チェーン・オブ・シント・プロンプトとLDMによる自己指示にインスパイアした。
実験の結果,MSIVDは高い性能を示し,LineVul(LLMベースの脆弱性検出ベースライン)はBigVulデータセットでは0.92点,PreciseBugsデータセットでは0.48点であった。
論文 参考訳(メタデータ) (2024-06-09T19:18:05Z) - Vulnerability Detection with Code Language Models: How Far Are We? [40.455600722638906]
PrimeVulは、脆弱性検出のためのコードLMのトレーニングと評価のための新しいデータセットである。
これは、人間の検証されたベンチマークに匹敵するラベルの精度を達成する、新しいデータラベリング技術を含んでいる。
また、厳密なデータ重複解消戦略と時系列データ分割戦略を実装して、データの漏洩問題を軽減している。
論文 参考訳(メタデータ) (2024-03-27T14:34:29Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - An Unbiased Transformer Source Code Learning with Semantic Vulnerability
Graph [3.3598755777055374]
現在の脆弱性スクリーニング技術は、新しい脆弱性を特定したり、開発者がコード脆弱性と分類を提供するのに効果がない。
これらの問題に対処するために,変換器 "RoBERTa" とグラフ畳み込みニューラルネットワーク (GCN) を組み合わせたマルチタスク・アンバイアス脆弱性分類器を提案する。
本稿では、逐次フロー、制御フロー、データフローからエッジを統合することで生成されたソースコードからのセマンティック脆弱性グラフ(SVG)表現と、Poacher Flow(PF)と呼ばれる新しいフローを利用したトレーニングプロセスを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:54:14Z) - Statement-Level Vulnerability Detection: Learning Vulnerability Patterns Through Information Theory and Contrastive Learning [31.15123852246431]
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱なコードで観測される構造にインスパイアされ、私たちはまず、潜伏変数の集合を学習するために相互情報を活用する。
そこで我々は,表現学習をさらに改善するために,新しいクラスタ型空間コントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-09-20T00:46:20Z) - Local Learning Matters: Rethinking Data Heterogeneity in Federated
Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文 参考訳(メタデータ) (2021-11-28T19:03:39Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。