論文の概要: An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability
- arxiv url: http://arxiv.org/abs/2209.10414v1
- Date: Tue, 20 Sep 2022 00:46:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 15:50:01.060242
- Title: An Information-Theoretic and Contrastive Learning-based Approach for
Identifying Code Statements Causing Software Vulnerability
- Title(参考訳): ソフトウェア脆弱性の原因となるコードステートメントを識別するための情報理論と対比学習に基づくアプローチ
- Authors: Van Nguyen, Trung Le, Chakkrit Tantithamthavorn, John Grundy, Hung
Nguyen, Seyit Camtepe, Paul Quirk and Dinh Phung
- Abstract要約: 脆弱性ラベリングは現在、機械学習ツールの助けを借りて、専門家によって関数またはプログラムレベルで実施されている。
本稿では,特定の関数の脆弱性関連コード文を特定するために,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
- 参考スコア(独自算出の注目度): 23.151478493811652
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software vulnerabilities existing in a program or function of computer
systems are a serious and crucial concern. Typically, in a program or function
consisting of hundreds or thousands of source code statements, there are only
few statements causing the corresponding vulnerabilities. Vulnerability
labeling is currently done on a function or program level by experts with the
assistance of machine learning tools. Extending this approach to the code
statement level is much more costly and time-consuming and remains an open
problem. In this paper we propose a novel end-to-end deep learning-based
approach to identify the vulnerability-relevant code statements of a specific
function. Inspired by the specific structures observed in real world vulnerable
code, we first leverage mutual information for learning a set of latent
variables representing the relevance of the source code statements to the
corresponding function's vulnerability. We then propose novel clustered spatial
contrastive learning in order to further improve the representation learning
and the robust selection process of vulnerability-relevant code statements.
Experimental results on real-world datasets of 200k+ C/C++ functions show the
superiority of our method over other state-of-the-art baselines. In general,
our method obtains a higher performance in VCP, VCA, and Top-10 ACC measures of
between 3\% to 14\% over the baselines when running on real-world datasets in
an unsupervised setting. Our released source code samples are publicly
available at
\href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.}
- Abstract(参考訳): コンピュータシステムのプログラムや機能に存在するソフトウェアの脆弱性は、深刻で重要な問題である。
通常、数百から数千のソースコードステートメントからなるプログラムや関数では、対応する脆弱性を引き起こすステートメントはごくわずかである。
脆弱性ラベリングは現在、マシンラーニングツールの助けを借りて、専門家による関数やプログラムレベルで行われている。
このアプローチをコードステートメントレベルにまで拡張するのは、はるかにコストと時間を要するため、依然としてオープンな問題です。
本稿では,特定の関数の脆弱性関連コード文を特定するための,エンドツーエンドのディープラーニングに基づく新しいアプローチを提案する。
実世界の脆弱性コードに見られる特定の構造にインスパイアされ、まず相互情報を利用して、ソースコードステートメントと対応する関数の脆弱性との関連性を表す潜伏変数の集合を学習する。
そこで我々は,脆弱性関連コード文の表現学習とロバスト選択プロセスをさらに改善するために,新しい空間的コントラスト学習を提案する。
200k以上のc/c++関数の実世界のデータセットにおける実験結果は、他の最先端のベースラインよりも優れた方法を示している。
一般に,本手法は,教師なし環境で実世界のデータセット上で動作する場合,ベースライン上でのVCP,VCA,Top-10 ACCの3倍から14倍の精度を示す。
リリース済みのソースコードサンプルは、 \href{https://github.com/vannguyennd/livuitcl}{https://github.com/vannguyennd/livuitcl.comで公開されています。
}
関連論文リスト
- FoC: Figure out the Cryptographic Functions in Stripped Binaries with LLMs [54.27040631527217]
削除されたバイナリの暗号関数を抽出するFoCと呼ばれる新しいフレームワークを提案する。
まず、自然言語における暗号関数のセマンティクスを要約するために、バイナリ大言語モデル(FoC-BinLLM)を構築した。
次に、FoC-BinLLM上にバイナリコード類似モデル(FoC-Sim)を構築し、変更に敏感な表現を作成し、データベース内の未知の暗号関数の類似実装を検索する。
論文 参考訳(メタデータ) (2024-03-27T09:45:33Z) - Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。
ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。
具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文 参考訳(メタデータ) (2024-03-24T12:41:58Z) - The Vulnerability Is in the Details: Locating Fine-grained Information of Vulnerable Code Identified by Graph-based Detectors [33.395068754566935]
VULEXPLAINERは、粗いレベルの脆弱なコードスニペットから脆弱性クリティカルなコード行を見つけるためのツールである。
C/C++の一般的な8つの脆弱性に対して、90%の精度で脆弱性をトリガするコードステートメントにフラグを付けることができる。
論文 参考訳(メタデータ) (2024-01-05T10:15:04Z) - Learning to Quantize Vulnerability Patterns and Match to Locate
Statement-Level Vulnerabilities [19.6975205650411]
さまざまな脆弱性パターンを表す量子化されたベクトルで構成される脆弱性コードブックが学習される。
推論の間、コードブックは、すべての学習パターンにマッチし、潜在的な脆弱性の存在を予測するために反復される。
提案手法は188,000以上のC/C++関数からなる実世界のデータセットに対して広範に評価された。
論文 参考訳(メタデータ) (2023-05-26T04:13:31Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VUDENC: Vulnerability Detection with Deep Learning on a Natural Codebase
for Python [8.810543294798485]
VUDENCはディープラーニングベースの脆弱性検出ツールである。
大規模で現実世界のPythonコーパスから脆弱性のあるコードの特徴を学ぶ。
VUDENCのリコール率は78%-87%、精度82%-96%、F1スコア80%-90%である。
論文 参考訳(メタデータ) (2022-01-20T20:29:22Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - Software Vulnerability Detection via Deep Learning over Disaggregated
Code Graph Representation [57.92972327649165]
この研究は、コードコーパスから安全でないパターンを自動的に学習するためのディープラーニングアプローチを探求する。
コードには解析を伴うグラフ構造が自然に認められるため,プログラムの意味的文脈と構造的規則性の両方を利用する新しいグラフニューラルネットワーク(GNN)を開発する。
論文 参考訳(メタデータ) (2021-09-07T21:24:36Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z) - A Transformer-based Approach for Source Code Summarization [86.08359401867577]
コードトークン間のペア関係をモデル化することにより,要約のためのコード表現を学習する。
アプローチは単純であるにもかかわらず、最先端技術よりもかなりの差があることが示される。
論文 参考訳(メタデータ) (2020-05-01T23:29:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。