論文の概要: On using distributed representations of source code for the detection of
C security vulnerabilities
- arxiv url: http://arxiv.org/abs/2106.01367v1
- Date: Tue, 1 Jun 2021 21:18:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-05 08:22:53.552706
- Title: On using distributed representations of source code for the detection of
C security vulnerabilities
- Title(参考訳): Cセキュリティ脆弱性検出のためのソースコードの分散表現について
- Authors: David Coimbra, Sofia Reis, Rui Abreu, Corina P\u{a}s\u{a}reanu, Hakan
Erdogmus
- Abstract要約: 本稿では,C ソースコードの脆弱性検出作業において,コード表現モデル Code2vec の評価を行った。
我々はオープンソースのライブラリAstminerを利用して、ラベル付きC関数のコーパスの抽象構文木からパスコンテキストを抽出する。
Code2vecは、関数を脆弱性または非脆弱性として分類するタスクで、結果のパスコンテキストに基づいてトレーニングされる。
- 参考スコア(独自算出の注目度): 14.8831988481175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an evaluation of the code representation model Code2vec
when trained on the task of detecting security vulnerabilities in C source
code. We leverage the open-source library astminer to extract path-contexts
from the abstract syntax trees of a corpus of labeled C functions. Code2vec is
trained on the resulting path-contexts with the task of classifying a function
as vulnerable or non-vulnerable. Using the CodeXGLUE benchmark, we show that
the accuracy of Code2vec for this task is comparable to simple
transformer-based methods such as pre-trained RoBERTa, and outperforms more
naive NLP-based methods. We achieved an accuracy of 61.43% while maintaining
low computational requirements relative to larger models.
- Abstract(参考訳): 本稿では,c ソースコードのセキュリティ脆弱性検出タスクにおいて,コード表現モデル code2vec の評価を行う。
我々はオープンソースライブラリのastminerを利用してラベル付きc関数のコーパスの抽象構文木からパスコンテキストを抽出する。
code2vecは、関数を脆弱か非破壊可能かを分類するタスクで、結果のパスコンテキストでトレーニングされる。
CodeXGLUEベンチマークを用いて、このタスクのCode2vecの精度は、事前訓練されたRoBERTaのような単純なトランスフォーマーベースのメソッドに匹敵し、より単純なNLPベースのメソッドよりも優れていることを示す。
我々は,より大きなモデルに対して低計算要求を維持しながら,61.43%の精度を実現した。
関連論文リスト
- BinaryAI: Binary Software Composition Analysis via Intelligent Binary
Source Code Matching [9.089636473792169]
BinaryAIは2フェーズのバイナリソースコードマッチングを備えた新しいバイナリ・ソースSCA技術で、構文的および意味的両方のコード特徴をキャプチャする。
実験の結果、バイナリソースコードマッチングと下流SCAタスクにおいて、BinaryAIの優れた性能を示しました。
論文 参考訳(メタデータ) (2024-01-20T07:57:57Z) - Factorizers for Distributed Sparse Block Codes [62.38616784953048]
分散ブロック符号(SBC)は、固定ベクトルを用いてシンボルデータ構造を符号化し、操作するためのコンパクトな表現を示す。
主要な課題の1つは、可能なすべての組み合わせを探索することなく、そのようなデータ構造を構成要素に切り離し、あるいは分解することである。
GSBCと呼ばれるより柔軟で一般化されたSBCを分解する高速かつ高精度な手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - VMCDL: Vulnerability Mining Based on Cascaded Deep Learning Under Source
Control Flow [2.561778620560749]
本稿では,主にSARDデータセットのc/c++ソースコードデータを用いて,CWE476,CWE469,CWE516,CWE570の脆弱性型のソースコードを処理する。
本稿では,ソースコード制御フローに基づく新しいカスケード深層学習モデルVMCDLを提案し,脆弱性を効果的に検出する。
論文 参考訳(メタデータ) (2023-03-13T13:58:39Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - FuncFooler: A Practical Black-box Attack Against Learning-based Binary
Code Similarity Detection Methods [13.694322857909166]
本稿では,FuncFoolerという,効率的かつブラックボックスなコード生成アルゴリズムを設計する。
FuncFoolerは、プログラムの制御フローグラフ(CFG)を変更せず、同じ意味を保つために、敵のコードを制限する。
経験的に、私たちのFuncFoolerは、SAFE、Asm2Vec、jTransを含む3つの学習ベースのBCSDモデルにうまく対応できます。
論文 参考訳(メタデータ) (2022-08-26T01:58:26Z) - VulBERTa: Simplified Source Code Pre-Training for Vulnerability
Detection [1.256413718364189]
VulBERTaは、ソースコードのセキュリティ脆弱性を検出するためのディープラーニングアプローチである。
当社のアプローチでは,オープンソースのC/C++プロジェクトの実世界のコードに対して,独自のトークン化パイプラインを備えたRoBERTaモデルを事前トレーニングする。
複数のデータセットにまたがるバイナリおよびマルチクラス脆弱性検出タスクに対するアプローチを評価する。
論文 参考訳(メタデータ) (2022-05-25T00:56:43Z) - Learning Stable Classifiers by Transferring Unstable Features [59.06169363181417]
本研究では,素早い相関関係の存在下での伝達学習について検討する。
提案手法は, ソースタスクで学習した安定な特徴抽出器を直接転送しても, 対象タスクのバイアスを排除できないことを実験的に実証する。
我々は、ソースタスクの不安定な特徴とターゲットタスクの不安定な特徴が直接関連していると仮定する。
論文 参考訳(メタデータ) (2021-06-15T02:41:12Z) - Detecting Security Fixes in Open-Source Repositories using Static Code
Analyzers [8.716427214870459]
機械学習(ML)アプリケーションにおけるコミットを表現する機能として,既製の静的コードアナライザの出力がどの程度使用されるかを検討する。
埋め込みの構築やMLモデルをトレーニングして、脆弱性修正を含むソースコードコミットを自動的に識別する方法について検討する。
当社のメソッドとcommit2vecの組み合わせは,脆弱性を修正するコミットの自動識別において,最先端技術よりも明確な改善であることがわかった。
論文 参考訳(メタデータ) (2021-05-07T15:57:17Z) - Contrastive Code Representation Learning [95.86686147053958]
一般的な再構成に基づくBERTモデルは,ソースコードの編集に敏感であることを示す。
コントラコード(ContraCode)は、コード機能を学ぶのにフォームではなく、コントラスト的な事前学習タスクである。
論文 参考訳(メタデータ) (2020-07-09T17:59:06Z) - LabelEnc: A New Intermediate Supervision Method for Object Detection [78.74368141062797]
本稿では,オブジェクト検出システムのトレーニングを促進するため,LabelEncという新たな中間監視手法を提案する。
鍵となるアイデアは、新しいラベル符号化機能を導入し、接地木ラベルを潜伏埋め込みにマッピングすることである。
実験の結果,COCOデータセット上での検出精度は,約2%向上した。
論文 参考訳(メタデータ) (2020-07-07T08:55:05Z) - Second-Order Provable Defenses against Adversarial Attacks [63.34032156196848]
ネットワークの固有値が有界であれば、凸最適化を用いて$l$ノルムの証明を効率的に計算できることを示す。
認証精度は5.78%,44.96%,43.19%であった。
論文 参考訳(メタデータ) (2020-06-01T05:55:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。