論文の概要: Predicting Likely-Vulnerable Code Changes: Machine Learning-based Vulnerability Protections for Android Open Source Project
- arxiv url: http://arxiv.org/abs/2405.16655v1
- Date: Sun, 26 May 2024 18:17:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-28 19:58:15.987320
- Title: Predicting Likely-Vulnerable Code Changes: Machine Learning-based Vulnerability Protections for Android Open Source Project
- Title(参考訳): 同じように脆弱性のあるコード変更を予測する - Androidオープンソースプロジェクトのためのマシンラーニングベースの脆弱性保護
- Authors: Keun Soo Yim,
- Abstract要約: 本稿では,ソースコードの変更に対するセキュリティレビューを選択的にトリガするフレームワークを提案する。
このフレームワークは、コード変更がソースコードリポジトリに送信される前に、コミット前に追加のセキュリティレビューを自動的に要求することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a framework that selectively triggers security reviews for incoming source code changes. Functioning as a review bot within a code review service, the framework can automatically request additional security reviews at pre-submit time before the code changes are submitted to a source code repository. Because performing such secure code reviews add cost, the framework employs a classifier trained to identify code changes with a high likelihood of vulnerabilities. The online classifier leverages various types of input features to analyze the review patterns, track the software engineering process, and mine specific text patterns within given code changes. The classifier and its features are meticulously chosen and optimized using data from the submitted code changes and reported vulnerabilities in Android Open Source Project (AOSP). The evaluation results demonstrate that our Vulnerability Prevention (VP) framework identifies approximately 80% of the vulnerability-inducing code changes in the dataset with a precision ratio of around 98% and a false positive rate of around 1.7%. We discuss the implications of deploying the VP framework in multi-project settings and future directions for Android security research. This paper explores and validates our approach to code change-granularity vulnerability prediction, offering a preventive technique for software security by preemptively detecting vulnerable code changes before submission.
- Abstract(参考訳): 本稿では,ソースコードの変更に対するセキュリティレビューを選択的にトリガするフレームワークを提案する。
コードレビューサービス内のレビューボットとして機能し、コード変更がソースコードリポジトリに送信される前に、追加のセキュリティレビューをコミット前に自動的に要求することができる。
このようなセキュアなコードレビューを実行するとコストが増すため、このフレームワークでは、脆弱性の高いコード変更を識別するためのトレーニング済みの分類器を使用している。
オンライン分類器は、さまざまな入力機能を活用して、レビューパターンを分析し、ソフトウェアエンジニアリングプロセスを追跡し、所定のコード変更の中で特定のテキストパターンをマイニングする。
分類器とその機能は、提出されたコードの変更とAndroid Open Source Project(AOSP)の脆弱性を報告したデータを使用して、慎重に選択され、最適化されている。
評価結果は、我々の脆弱性防止(VP)フレームワークが、データセットの脆弱性誘発コード変更の約80%を、精度が98%、偽陽性率が1.7%であることを示す。
マルチプロジェクト環境におけるVPフレームワークの展開と今後のAndroidセキュリティ研究の方向性について論じる。
本稿では、コード変更の粒度脆弱性予測に対する我々のアプローチを探求し、提案する前に脆弱性のあるコード変更をプリエンプティブに検出することで、ソフトウェアセキュリティの予防技術を提供する。
関連論文リスト
- RedCode: Risky Code Execution and Generation Benchmark for Code Agents [50.81206098588923]
RedCodeはリスクの高いコード実行と生成のためのベンチマークである。
RedCode-Execは、危険なコード実行につながる可能性のある、挑戦的なプロンプトを提供する。
RedCode-Genは160のプロンプトに関数シグネチャとドキュメントを入力として提供し、コードエージェントが命令に従うかどうかを評価する。
論文 参考訳(メタデータ) (2024-11-12T13:30:06Z) - Understanding Code Understandability Improvements in Code Reviews [79.16476505761582]
GitHub上のJavaオープンソースプロジェクトからの2,401のコードレビューコメントを分析した。
改善提案の83.9%が承認され、統合され、1%未満が後に復活した。
論文 参考訳(メタデータ) (2024-10-29T12:21:23Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - HexaCoder: Secure Code Generation via Oracle-Guided Synthetic Training Data [60.75578581719921]
大規模言語モデル(LLM)は、自動コード生成に大きな可能性を示している。
最近の研究は、多くのLLM生成コードが深刻なセキュリティ脆弱性を含んでいることを強調している。
我々は,LLMがセキュアなコードを生成する能力を高めるための新しいアプローチであるHexaCoderを紹介する。
論文 参考訳(メタデータ) (2024-09-10T12:01:43Z) - LLM-Enhanced Static Analysis for Precise Identification of Vulnerable OSS Versions [12.706661324384319]
オープンソースソフトウェア(OSS)は、そのコラボレーティブな開発モデルとコスト効果の性質から、人気が高まっている。
開発プロジェクトにおける特定のソフトウェアバージョンの採用は、これらのバージョンが脆弱性をもたらす場合にセキュリティリスクをもたらす可能性がある。
脆弱性のあるバージョンを識別する現在の方法は、通常、事前に定義されたルールで静的解析を使用して、脆弱性パッチに関わるコードを分析してトレースする。
本稿では,C/C++で記述されたOSSの脆弱なバージョンを特定するために,Vercationを提案する。
論文 参考訳(メタデータ) (2024-08-14T06:43:06Z) - Is Your AI-Generated Code Really Safe? Evaluating Large Language Models on Secure Code Generation with CodeSecEval [20.959848710829878]
大規模言語モデル(LLM)は、コード生成とコード修復に大きな進歩をもたらした。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を必然的に伝播するリスクを増大させる。
我々は,コードLLMのセキュリティ面を正確に評価し,拡張することを目的とした総合的研究を提案する。
論文 参考訳(メタデータ) (2024-07-02T16:13:21Z) - A Novel Approach to Identify Security Controls in Source Code [4.598579706242066]
本稿では,一般的なセキュリティ制御の包括的リストを列挙し,それぞれにデータセットを作成する。
最新のNLP技術であるBERT(Bidirectional Representations from Transformers)とTactic Detector(Tactic Detector)を使って、セキュリティコントロールを高い信頼性で識別できることを示しています。
論文 参考訳(メタデータ) (2023-07-10T21:14:39Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - Multi-context Attention Fusion Neural Network for Software Vulnerability
Identification [4.05739885420409]
ソースコードのセキュリティ脆弱性の共通カテゴリのいくつかを効率的に検出することを学ぶディープラーニングモデルを提案する。
モデルは、学習可能なパラメータの少ないコードセマンティクスの正確な理解を構築します。
提案したAIは、ベンチマークされたNIST SARDデータセットから特定のCWEに対して98.40%のF1スコアを達成する。
論文 参考訳(メタデータ) (2021-04-19T11:50:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。