論文の概要: REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes
- arxiv url: http://arxiv.org/abs/2309.08115v1
- Date: Fri, 15 Sep 2023 02:50:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 07:41:46.253891
- Title: REEF: A Framework for Collecting Real-World Vulnerabilities and Fixes
- Title(参考訳): REEF: 現実世界の脆弱性と修正を収集するフレームワーク
- Authors: Chaozheng Wang, Zongjie Li, Yun Peng, Shuzheng Gao, Sirong Chen, Shuai
Wang, Cuiyun Gao, Michael R. Lyu
- Abstract要約: 本稿では,REal-world vulnErabilities and Fixesをオープンソースリポジトリから収集するための自動収集フレームワークREEFを提案する。
脆弱性とその修正を収集する多言語クローラを開発し、高品質な脆弱性修正ペアをフィルタするためのメトリクスを設計する。
大規模な実験を通じて,我々の手法が高品質な脆弱性修正ペアを収集し,強力な説明を得られることを示す。
- 参考スコア(独自算出の注目度): 40.401211102969356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software plays a crucial role in our daily lives, and therefore the quality
and security of software systems have become increasingly important. However,
vulnerabilities in software still pose a significant threat, as they can have
serious consequences. Recent advances in automated program repair have sought
to automatically detect and fix bugs using data-driven techniques.
Sophisticated deep learning methods have been applied to this area and have
achieved promising results. However, existing benchmarks for training and
evaluating these techniques remain limited, as they tend to focus on a single
programming language and have relatively small datasets. Moreover, many
benchmarks tend to be outdated and lack diversity, focusing on a specific
codebase. Worse still, the quality of bug explanations in existing datasets is
low, as they typically use imprecise and uninformative commit messages as
explanations.
To address these issues, we propose an automated collecting framework REEF to
collect REal-world vulnErabilities and Fixes from open-source repositories. We
develop a multi-language crawler to collect vulnerabilities and their fixes,
and design metrics to filter for high-quality vulnerability-fix pairs.
Furthermore, we propose a neural language model-based approach to generate
high-quality vulnerability explanations, which is key to producing informative
fix messages. Through extensive experiments, we demonstrate that our approach
can collect high-quality vulnerability-fix pairs and generate strong
explanations. The dataset we collect contains 4,466 CVEs with 30,987 patches
(including 236 CWE) across 7 programming languages with detailed related
information, which is superior to existing benchmarks in scale, coverage, and
quality. Evaluations by human experts further confirm that our framework
produces high-quality vulnerability explanations.
- Abstract(参考訳): ソフトウェアは私たちの日常生活において重要な役割を果たすので、ソフトウェアシステムの品質とセキュリティはますます重要になっています。
しかしながら、ソフトウェアの脆弱性は深刻な結果をもたらす可能性があるため、依然として重大な脅威となる。
自動プログラム修復の最近の進歩は、データ駆動技術を用いてバグを自動的に検出し、修正することを目指している。
高度な深層学習手法がこの分野に応用され,有望な成果を上げている。
しかしながら、これらのテクニックをトレーニングし評価するための既存のベンチマークは、単一のプログラミング言語に集中し、比較的小さなデータセットを持つ傾向にあるため、制限されている。
さらに、多くのベンチマークは時代遅れで多様性がなく、特定のコードベースにフォーカスしています。
さらに悪いことに、既存のデータセットにおけるバグ説明の品質は低い。
これらの問題に対処するため、オープンソースのリポジトリからREal-world vulnErabilities and Fixesを収集する自動収集フレームワークREEFを提案する。
我々は,脆弱性とその修正を収集する多言語クローラを開発し,高品質な脆弱性フィックスペアをフィルタするためのメトリクスを設計する。
さらに,高品質な脆弱性説明を生成するためのニューラル言語モデルに基づくアプローチを提案する。
広範な実験を通じて,当社のアプローチが高品質な脆弱性フィックスペアを収集し,強力な説明を生成できることを実証する。
収集したデータセットには4,466のcveがあり、30,987のパッチ(236のcweを含む)が7つのプログラミング言語にまたがって含まれています。
ヒトの専門家による評価は、我々のフレームワークが高品質な脆弱性説明を生成することをさらに確認する。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - ReposVul: A Repository-Level High-Quality Vulnerability Dataset [13.90550557801464]
自動データ収集フレームワークを提案し,ReposVulと呼ばれる最初のリポジトリレベルの高品質な脆弱性データセットを構築した。
提案するフレームワークは,主に3つのモジュールから構成されている。(1)脆弱性解消モジュールは,脆弱性修正に関連するコード変更を,大規模言語モデル (LLM) と静的解析ツールを併用した,絡み合ったパッチから識別することを目的としたもので,(2)脆弱性の相互呼び出し関係の把握を目的とした多言語依存性抽出モジュールで,リポジトリレベル,ファイルレベル,関数レベルを含む各脆弱性パッチに対して,複数の粒度情報を構築する。
論文 参考訳(メタデータ) (2024-01-24T01:27:48Z) - How Far Have We Gone in Vulnerability Detection Using Large Language
Models [15.09461331135668]
包括的な脆弱性ベンチマークであるVulBenchを紹介します。
このベンチマークは、幅広いCTF課題と実世界のアプリケーションから高品質なデータを集約する。
いくつかのLSMは、脆弱性検出における従来のディープラーニングアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-21T08:20:39Z) - AIBugHunter: A Practical Tool for Predicting, Classifying and Repairing
Software Vulnerabilities [27.891905729536372]
AIBugHunterは、C/C++言語用のMLベースのソフトウェア脆弱性分析ツールで、Visual Studio Codeに統合されている。
本稿では,新たな多目的最適化(MOO)に基づく脆弱性分類手法と,AIBugHunterが脆弱性タイプを正確に識別し,重症度を推定するためのトランスフォーマーに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T04:21:53Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - VELVET: a noVel Ensemble Learning approach to automatically locate
VulnErable sTatements [62.93814803258067]
本稿では,ソースコード中の脆弱な文を見つけるための新しいアンサンブル学習手法であるVELVETを提案する。
我々のモデルは、グラフベースとシーケンスベースニューラルネットワークを組み合わせて、プログラムグラフの局所的およびグローバル的コンテキストを捕捉する。
VELVETは、合成データと実世界のデータに対して、それぞれ99.6%と43.6%の精度を達成している。
論文 参考訳(メタデータ) (2021-12-20T22:45:27Z) - V2W-BERT: A Framework for Effective Hierarchical Multiclass
Classification of Software Vulnerabilities [7.906207218788341]
本稿では,Transformer-based learning framework(V2W-BERT)を提案する。
自然言語処理,リンク予測,転送学習のアイデアを用いることで,従来の手法よりも優れる。
ランダムに分割されたデータの予測精度は最大97%、一時分割されたデータの予測精度は最大94%です。
論文 参考訳(メタデータ) (2021-02-23T05:16:57Z) - Trustworthy AI [75.99046162669997]
入力データの小さな敵対的変化への脆さ、決定の説明能力、トレーニングデータのバイアスに対処する能力は、最も顕著な制限である。
我々は,AIシステムに対するユーザおよび公的な信頼を高める上での6つの重要な問題に対処するために,信頼に値するAIに関するチュートリアルを提案する。
論文 参考訳(メタデータ) (2020-11-02T20:04:18Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。