論文の概要: Causative Insights into Open Source Software Security using Large
Language Code Embeddings and Semantic Vulnerability Graph
- arxiv url: http://arxiv.org/abs/2401.07035v1
- Date: Sat, 13 Jan 2024 10:33:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:07:24.749654
- Title: Causative Insights into Open Source Software Security using Large
Language Code Embeddings and Semantic Vulnerability Graph
- Title(参考訳): 大規模言語コード埋め込みとセマンティック脆弱性グラフを用いたオープンソースソフトウェアセキュリティの因果的洞察
- Authors: Nafis Tanveer Islam, Gonzalo De La Torre Parra, Dylan Manual, Murtuza
Jadliwala, Peyman Najafirad
- Abstract要約: オープンソースソフトウェア(OSS)の脆弱性は、不正アクセス、データ漏洩、ネットワーク障害、プライバシー侵害を引き起こす可能性がある。
最近のディープラーニング技術は、ソースコードの脆弱性を特定し、ローカライズする上で大きな可能性を示しています。
本研究は,従来の方法に比べてコード修復能力が24%向上したことを示す。
- 参考スコア(独自算出の注目度): 3.623199159688412
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Open Source Software (OSS) security and resilience are worldwide phenomena
hampering economic and technological innovation. OSS vulnerabilities can cause
unauthorized access, data breaches, network disruptions, and privacy
violations, rendering any benefits worthless. While recent deep-learning
techniques have shown great promise in identifying and localizing
vulnerabilities in source code, it is unclear how effective these research
techniques are from a usability perspective due to a lack of proper
methodological analysis. Usually, these methods offload a developer's task of
classifying and localizing vulnerable code; still, a reasonable study to
measure the actual effectiveness of these systems to the end user has yet to be
conducted. To address the challenge of proper developer training from the prior
methods, we propose a system to link vulnerabilities to their root cause,
thereby intuitively educating the developers to code more securely.
Furthermore, we provide a comprehensive usability study to test the
effectiveness of our system in fixing vulnerabilities and its capability to
assist developers in writing more secure code. We demonstrate the effectiveness
of our system by showing its efficacy in helping developers fix source code
with vulnerabilities. Our study shows a 24% improvement in code repair
capabilities compared to previous methods. We also show that, when trained by
our system, on average, approximately 9% of the developers naturally tend to
write more secure code with fewer vulnerabilities.
- Abstract(参考訳): オープンソースソフトウェア(OSS)のセキュリティとレジリエンスは、世界規模で経済と技術革新を妨げる現象である。
OSSの脆弱性は、不正アクセス、データ漏洩、ネットワークの障害、プライバシ違反を引き起こし、価値のない利益をもたらす可能性がある。
最近のディープラーニング技術は、ソースコードの脆弱性を特定し、ローカライズする上で大きな可能性を秘めているが、適切な方法論分析が欠如していることから、これらの研究手法がユーザビリティの観点からどれほど有効であるかは明らかではない。
通常、これらのメソッドは、脆弱性のあるコードの分類とローカライズという開発者のタスクをオフロードする。
従来の方法からの適切な開発者トレーニングの課題に対処するために,脆弱性を根本原因にリンクするシステムを提案する。
さらに,脆弱性の修正におけるシステムの有効性と,よりセキュアなコードを書くことを支援する機能をテストするための総合的なユーザビリティスタディを提供する。
脆弱性のあるソースコードの修正を支援することで,システムの有効性を実証する。
これまでの方法と比較して,コード修復能力は24%向上している。
また、システムによってトレーニングされた場合、平均して約9%の開発者が、脆弱性が少なくよりセキュアなコードを書く傾向にあることも示しています。
関連論文リスト
- Your Instructions Are Not Always Helpful: Assessing the Efficacy of
Instruction Fine-tuning for Software Vulnerability Detection [9.763041664345105]
ソフトウェアは、固有の脆弱性のために潜在的なサイバーセキュリティリスクを引き起こす。
ディープラーニングは、広範な機能エンジニアリングを必要とせずに、優れたパフォーマンスを実現することができるため、このタスクの効果的なツールとして期待されている。
最近の研究は、多様なタスクにおけるディープラーニングの有効性を強調している。
本稿では,モデル,特に最近の言語モデルが,学習データに使用されるプログラミング言語を超えて一般化する能力について検討する。
論文 参考訳(メタデータ) (2024-01-15T04:45:27Z) - LLM-Powered Code Vulnerability Repair with Reinforcement Learning and
Semantic Reward [3.729516018513228]
我々は,大規模な言語モデルであるCodeGen2を利用した多目的コード脆弱性解析システム texttSecRepair を導入する。
そこで本研究では,LLMを用いた脆弱性解析に適した命令ベースデータセットを提案する。
GitHub上の6つのオープンソースIoTオペレーティングシステムにおいて、ゼロデイとNデイの脆弱性を特定します。
論文 参考訳(メタデータ) (2024-01-07T02:46:39Z) - Enhancing Large Language Models for Secure Code Generation: A
Dataset-driven Study on Vulnerability Mitigation [24.668682498171776]
大規模言語モデル(LLM)はコード生成に大きな進歩をもたらし、初心者と経験豊富な開発者の両方に恩恵を与えている。
しかし、GitHubのようなオープンソースのリポジトリから無防備なデータを使用したトレーニングは、セキュリティ上の脆弱性を不注意に伝播するリスクをもたらす。
本稿では,ソフトウェアセキュリティの観点からのLLMの評価と拡張に焦点をあてた総合的研究について述べる。
論文 参考訳(メタデータ) (2023-10-25T00:32:56Z) - Transformer-based Vulnerability Detection in Code at EditTime:
Zero-shot, Few-shot, or Fine-tuning? [5.603751223376071]
脆弱性のあるコードパターンの大規模データセットにディープラーニングを活用する実用的なシステムを提案する。
美術品の脆弱性検出モデルと比較すると,我々の手法は工芸品の状態を10%改善する。
論文 参考訳(メタデータ) (2023-05-23T01:21:55Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Developing Hands-on Labs for Source Code Vulnerability Detection with AI [0.0]
我々は、将来のIT専門家をセキュアなプログラミングの習慣へと導くために、モジュールの学習と実験室への手引きを含むフレームワークを提案する。
このテーマは、ソースコードとログファイル分析ツールを使用して、セキュアなプログラミングプラクティスを学生に紹介するラボで、学習モジュールを設計することを目的としています。
論文 参考訳(メタデータ) (2023-02-01T20:53:58Z) - Pre-trained Encoders in Self-Supervised Learning Improve Secure and
Privacy-preserving Supervised Learning [63.45532264721498]
自己教師付き学習は、ラベルのないデータを使ってエンコーダを事前訓練するための新しいテクニックである。
我々は、事前訓練されたエンコーダがセキュア・プライバシ保護型学習アルゴリズムの限界に対処できるかどうかを理解するための、最初の体系的、原則的な測定研究を行う。
論文 参考訳(メタデータ) (2022-12-06T21:35:35Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - RoFL: Attestable Robustness for Secure Federated Learning [59.63865074749391]
フェデレートラーニング(Federated Learning)により、多数のクライアントが、プライベートデータを共有することなく、ジョイントモデルをトレーニングできる。
クライアントのアップデートの機密性を保証するため、フェデレートラーニングシステムはセキュアなアグリゲーションを採用している。
悪意のあるクライアントに対する堅牢性を向上させるセキュアなフェデレート学習システムであるRoFLを提案する。
論文 参考訳(メタデータ) (2021-07-07T15:42:49Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - Dos and Don'ts of Machine Learning in Computer Security [74.1816306998445]
大きな可能性にもかかわらず、セキュリティにおける機械学習は、パフォーマンスを損なう微妙な落とし穴を引き起こす傾向がある。
我々は,学習ベースのセキュリティシステムの設計,実装,評価において共通の落とし穴を特定する。
我々は,落とし穴の回避や軽減を支援するために,研究者を支援するための実用的な勧告を提案する。
論文 参考訳(メタデータ) (2020-10-19T13:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。