論文の概要: Software Vulnerability Prediction Knowledge Transferring Between
Programming Languages
- arxiv url: http://arxiv.org/abs/2303.06177v1
- Date: Fri, 10 Mar 2023 19:21:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-14 20:31:26.359068
- Title: Software Vulnerability Prediction Knowledge Transferring Between
Programming Languages
- Title(参考訳): プログラミング言語間のソフトウェア脆弱性予測知識の転送
- Authors: Khadija Hanifi, Ramin F Fouladi, Basak Gencer Unsalver, Goksu Karadag
- Abstract要約: 本稿では、利用可能なデータセットを活用するトランスファー学習手法を提案し、異なるプログラミング言語の共通脆弱性を検出するモデルを生成する。
我々は、Cのソースコードサンプルを使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングし、Javaのソースコードサンプルを使用して学習モデルを採用し、評価する。
その結果,提案モデルでは,CコードとJavaコードの両方の脆弱性を平均72%のリコールで検出できることがわかった。
- 参考スコア(独自算出の注目度): 2.3035725779568583
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing automated and smart software vulnerability detection models has
been receiving great attention from both research and development communities.
One of the biggest challenges in this area is the lack of code samples for all
different programming languages. In this study, we address this issue by
proposing a transfer learning technique to leverage available datasets and
generate a model to detect common vulnerabilities in different programming
languages. We use C source code samples to train a Convolutional Neural Network
(CNN) model, then, we use Java source code samples to adopt and evaluate the
learned model. We use code samples from two benchmark datasets: NIST Software
Assurance Reference Dataset (SARD) and Draper VDISC dataset. The results show
that proposed model detects vulnerabilities in both C and Java codes with
average recall of 72\%. Additionally, we employ explainable AI to investigate
how much each feature contributes to the knowledge transfer mechanisms between
C and Java in the proposed model.
- Abstract(参考訳): 自動化およびスマートなソフトウェア脆弱性検出モデルの開発は、研究開発コミュニティからも大きな注目を集めている。
この領域で最大の課題の1つは、あらゆる異なるプログラミング言語のコードサンプルがないことである。
本研究では,利用可能なデータセットを活用し,異なるプログラミング言語の共通脆弱性を検出するモデルを生成するトランスファー学習手法を提案する。
Cのソースコードサンプルを使用して、畳み込みニューラルネットワーク(CNN)モデルをトレーニングし、Javaのソースコードサンプルを使用して学習モデルを採用し、評価する。
NIST Software Assurance Reference Dataset(SARD)とDraper VDISCデータセットの2つのベンチマークデータセットのコードサンプルを使用します。
その結果,提案手法はCコードとJavaコードの両方の脆弱性を検出し,平均リコール率は72\%であった。
さらに,説明可能なaiを用いて,提案モデルにおけるcとjava間の知識伝達機構に各機能がどのように寄与するかを検討する。
関連論文リスト
- SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Automated Repair of AI Code with Large Language Models and Formal Verification [4.9975496263385875]
次世代のAIシステムは強力な安全保証を必要とする。
本稿では,ニューラルネットワークと関連するメモリ安全性特性のソフトウェア実装について述べる。
これらの脆弱性を検出し、大きな言語モデルの助けを借りて自動的に修復します。
論文 参考訳(メタデータ) (2024-05-14T11:52:56Z) - VULNERLIZER: Cross-analysis Between Vulnerabilities and Software
Libraries [4.2755847332268235]
VULNERLIZERは脆弱性とソフトウェアライブラリ間のクロス分析のための新しいフレームワークである。
CVEとソフトウェアライブラリのデータとクラスタリングアルゴリズムを使用して、脆弱性とライブラリ間のリンクを生成する。
トレーニングされたモデルは、75%以上の予測精度に達する。
論文 参考訳(メタデータ) (2023-09-18T10:34:47Z) - Language Models for Novelty Detection in System Call Traces [0.27309692684728604]
本稿では,システムコールのシーケンスの確率分布に依存する新規性検出手法を提案する。
提案手法は手作りを最小限に抑え、多くの新規品においてFスコアとAuROCを95%以上達成する。
ソースコードとトレーニングされたモデルはGitHubで公開されており、データセットはZenodoで公開されている。
論文 参考訳(メタデータ) (2023-09-05T13:11:40Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Fault-Aware Neural Code Rankers [64.41888054066861]
サンプルプログラムの正しさを予測できる故障認識型ニューラルネットワークローダを提案する。
我々のフォールト・アウェア・ローダは、様々なコード生成モデルのpass@1精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2022-06-04T22:01:05Z) - Evaluating few shot and Contrastive learning Methods for Code Clone
Detection [5.1623866691702744]
コードクローン検出(Code Clone Detection)は、盗作検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。
ディープラーニングベースのモデルは、CodeXGLUEベンチマークで$sim$95%のF1スコア(分類器の評価に用いられる指標)を達成した。
注釈付きデータが限られているこれらのモデルの一般化性を評価する以前の研究はない。
論文 参考訳(メタデータ) (2022-04-15T15:01:55Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。