論文の概要: An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability
- arxiv url: http://arxiv.org/abs/2209.10414v1
- Date: Tue, 20 Sep 2022 00:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:50:01.060242
- Title: An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability
- Title(参考訳): ソフトウェア脆弱性の原因となるコードステートメントを識別するための情報理論と対比学習に基づくアプローチ
- Authors: Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung
Nguyen, Seyit Camtepe, Paul Quirk and Dinh Phung
- Abstract要約: 脆弱性ラベリングは現在、機械学習ツールの助けを借りて、専門家によって関数またはプログラムレベルで実施されている。
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.151478493811652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software vulnerabilities existing in a program or function of computer
systems are a serious and crucial concern. Typically, in a program or function
consisting of hundreds or thousands of source code statements, there are only
few statements causing the corresponding vulnerabilities. Vulnerability
labeling is currently done on a function or program level by experts with the
assistance of machine learning tools. Extending this approach to the code
statement level is much more costly and time-consuming and remains an open
problem. In this paper we propose a novel end-to-end deep learning-based
approach to identify the vulnerability-relevant code statements of a specific
function. Inspired by the specific structures observed in real world vulnerable
code, we first leverage mutual information for learning a set of latent
variables representing the relevance of the source code statements to the
corresponding function's vulnerability. We then propose novel clustered spatial
contrastive learning in order to further improve the representation learning
and the robust selection process of vulnerability-relevant code statements.
Experimental results on real-world datasets of 200k+ C/C++ functions show the
superiority of our method over other state-of-the-art baselines. In general,
our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of
between 3\% to 14\% over the baselines when running on real-world datasets in
an unsupervised setting. Our released source code samples are publicly
available at
\href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.}
- Abstract(参考訳): コンピュータシステムのプログラムや機能に存在するソフトウェアの脆弱性は、深刻で重要な問題である。
通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはごくわずかである。
脆弱性ラベリングは現在、マシンラーニングツールの助けを借りて、専門家による関数やプログラムレベルで行われている。
このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。
本稿では,特定の関数の脆弱性関連コード文を特定するための,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を利用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。
そこで我々は,脆弱性関連コード文の表現学習とロバスト選択プロセスをさらに改善するために,新しい空間的コントラスト学習を提案する。
200k以上のc/c++関数の実世界のデータセットにおける実験結果は、他の最先端のベースラインよりも優れた方法を示している。
一般に,本手法は,教師なし環境で実世界のデータセット上で動作する場合,ベースライン上でのVCP,VCA,Top-10 ACCの3倍から14倍の精度を示す。
リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。
}
関連論文リスト
- The Vulnerability Is in the Details: Locating Fine-grained Information
of Vulnerable Code Identified by Graph-based Detectors [39.01486277170386]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。
C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Deep Class-Incremental Learning: A Survey [68.21880493796442]
常に変化する世界で、新しいクラスが時々現れます。
新しいクラスのインスタンスでモデルを直接トレーニングする場合、モデルは破滅的に以前のモデルの特徴を忘れる傾向があります。
ベンチマーク画像分類タスクにおける16の手法の厳密で統一的な評価を行い、異なるアルゴリズムの特徴を明らかにする。
論文 参考訳(メタデータ) (2023-02-07T17:59:05Z) - A Hierarchical Deep Neural Network for Detecting Lines of Codes with
Vulnerabilities [6.09170287691728]
ソースコードの意図しない欠陥によって引き起こされるソフトウェア脆弱性は、サイバー攻撃の根本原因である。
本稿では,自然言語処理で使用されている手法に基づいて,LLVM IR表現から脆弱性を検出するためのディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-11-15T21:21:27Z) - VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase
for Python [8.810543294798485]
VUDENCはディープラーニングベースの脆弱性検出ツールである。
大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。
VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
論文 参考訳(メタデータ) (2022-01-20T20:29:22Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。