論文の概要: Automated Vulnerability Detection in Source Code Using Deep Representation Learning
- arxiv url: http://arxiv.org/abs/2602.23121v1
- Date: Thu, 26 Feb 2026 15:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.755311
- Title: Automated Vulnerability Detection in Source Code Using Deep Representation Learning
- Title(参考訳): 深部表現学習を用いたソースコードの自動脆弱性検出
- Authors: C. Seas, G. Fitzpatrick, J. A. Hamilton, M. C. Carlisle,
- Abstract要約: 我々は、Cコードのバグをうまく識別できる畳み込みニューラルネットワークモデルを提案する。
2つの補完的なデータセットを使ってモデルをトレーニングしました。
また、我々は、偽陽性率の低い複雑なコードで本当の脆弱性を見つけることができるカスタムLinuxカーネルデータセットを実証しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Each year, software vulnerabilities are discovered, which pose significant risks of exploitation and system compromise. We present a convolutional neural network model that can successfully identify bugs in C code. We trained our model using two complementary datasets: a machine-labeled dataset created by Draper Labs using three static analyzers and the NIST SATE Juliet human-labeled dataset designed for testing static analyzers. In contrast with the work of Russell et al. on these datasets, we focus on C programs, enabling us to specialize and optimize our detection techniques for this language. After removing duplicates from the dataset, we tokenize the input into 91 token categories. The category values are converted to a binary vector to save memory. Our first convolution layer is chosen so that the entire encoding of the token is presented to the filter. We use two convolution and pooling layers followed by two fully connected layers to classify programs into either a common weakness enumeration category or as ``clean.'' We obtain higher recall than prior work by Russell et al. on this dataset when requiring high precision. We also demonstrate on a custom Linux kernel dataset that we are able to find real vulnerabilities in complex code with a low false-positive rate.
- Abstract(参考訳): 毎年、ソフトウェア脆弱性が発見され、エクスプロイトとシステムの妥協の重大なリスクが生じる。
我々は、Cコードのバグをうまく識別できる畳み込みニューラルネットワークモデルを提案する。
3つの静的アナライザを使用してDraper Labsが作成したマシンラベルデータセットと、静的アナライザをテストするために設計されたNIST SATE Juliet人ラベルデータセットです。
これらのデータセットに関するRussellらの研究とは対照的に、私たちはCプログラムに集中し、この言語の検出テクニックを専門化し、最適化することができます。
データセットから重複を除去した後、入力を91のトークンカテゴリにトークン化する。
カテゴリ値はメモリを保存するためにバイナリベクトルに変換される。
最初の畳み込み層が選択され、トークンのエンコーディング全体がフィルタに提示される。
プログラムを共通の弱点列挙カテゴリに分類するために、2つの畳み込み層とプーリング層を使用します。
「」 高精度が必要な場合、ラッセルらによるこのデータセットの以前の研究よりも高いリコールが得られる。
また、我々は、偽陽性率の低い複雑なコードで本当の脆弱性を見つけることができるカスタムLinuxカーネルデータセットを実証しています。
関連論文リスト
- Optimizing Code Embeddings and ML Classifiers for Python Source Code Vulnerability Detection [0.0]
そこで本研究では,Pythonソースコードにおける脆弱性検出のための,コード埋め込み手法と機械学習分類器の最適組み合わせについて検討した。
我々は、二方向長短期記憶(BiLSTM)ネットワークと畳み込みニューラルネットワーク(CNN)の2つのディープラーニング分類器とともに、Word2Vec、CodeBERT、GraphCodeBERTの3つの埋め込み技術を評価する。
CNNとGraphCodeBERTは高いパフォーマンスを示すが、Word2Vecを使用したBiLSTMモデルは、常に優れた総合的な結果が得られる。
論文 参考訳(メタデータ) (2025-09-16T14:52:02Z) - A Fresh Take on Stale Embeddings: Improving Dense Retriever Training with Corrector Networks [81.2624272756733]
密集検索では、ディープエンコーダは入力とターゲットの両方に埋め込みを提供する。
我々は、古いキャッシュされたターゲット埋め込みを調整できる小さなパラメトリック補正ネットワークを訓練する。
私たちのアプローチは、トレーニング中にターゲット埋め込み更新が行われなくても、最先端の結果と一致します。
論文 参考訳(メタデータ) (2024-09-03T13:29:13Z) - On Training a Neural Network to Explain Binaries [43.27448128029069]
本研究では,バイナリコード理解のタスクにおいて,ディープニューラルネットワークをトレーニングする可能性を検討する。
私たちは、Stack Overflowの1.1Mエントリを含むキャプチャから派生した、独自のデータセットを構築しています。
論文 参考訳(メタデータ) (2024-04-30T15:34:51Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - AnoRand: A Semi Supervised Deep Learning Anomaly Detection Method by
Random Labeling [0.0]
異常検出(英: Anomaly detection)またはより一般的には異常検出(英: outliers detection)は、理論的および応用機械学習において最も人気があり、課題の1つである。
我々は、ディープラーニングアーキテクチャとランダムな合成ラベル生成を組み合わせることで、textbfAnoRandと呼ばれる新しい半教師付き異常検出手法を提案する。
論文 参考訳(メタデータ) (2023-05-28T10:53:34Z) - Semi-Supervised and Long-Tailed Object Detection with CascadeMatch [91.86787064083012]
そこで我々はCascadeMatchと呼ばれる新しい擬似ラベル型検出器を提案する。
我々の検出器は、プログレッシブな信頼しきい値を持つ多段検出ヘッドを備えたカスケードネットワークアーキテクチャを備えている。
CascadeMatchは、長い尾のオブジェクト検出の処理において、既存の最先端の半教師付きアプローチを超越していることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:09:25Z) - Factorizers for Distributed Sparse Block Codes [45.29870215671697]
分散ブロック符号(SBC)を高速かつ高精度に分解する手法を提案する。
我々の反復分解器は、しきい値に基づく非線形活性化、条件付きランダムサンプリング、および $ell_infty$-based similarity metricを導入している。
CIFAR-100, ImageNet-1K, RAVENデータセット上での4つの深層CNNアーキテクチャの実現可能性を示す。
論文 参考訳(メタデータ) (2023-03-24T12:31:48Z) - Few-Shot Non-Parametric Learning with Deep Latent Variable Model [50.746273235463754]
遅延変数を用いた圧縮による非パラメトリック学習(NPC-LV)を提案する。
NPC-LVは、ラベルなしデータが多いがラベル付きデータはほとんどないデータセットの学習フレームワークである。
我々は,NPC-LVが低データ構造における画像分類における3つのデータセットの教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-23T09:35:03Z) - Anomaly Detection using Capsule Networks for High-dimensional Datasets [0.0]
本研究では, カプセルネットワークを用いて異常検出を行う。
我々の知る限りでは、これはカプセルネットワークが高次元複素データ設定における異常検出タスクのために解析される最初の事例である。
論文 参考訳(メタデータ) (2021-12-27T05:07:02Z) - Detecting Handwritten Mathematical Terms with Sensor Based Data [71.84852429039881]
本稿では,手書きの数学的用語を自動分類する,スタビロによるUbiComp 2021チャレンジの解を提案する。
入力データセットには異なるライターのデータが含まれており、ラベル文字列は合計15の異なる文字から構成されている。
論文 参考訳(メタデータ) (2021-09-12T19:33:34Z) - ast2vec: Utilizing Recursive Neural Encodings of Python Programs [3.088385631471295]
我々はPythonの構文木をベクトルとバックにマッピングするニューラルネットワークであるast2vecを紹介した。
Ast2vecは50万近い初心者プログラマーのプログラムで訓練されている。
論文 参考訳(メタデータ) (2021-03-22T06:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。