論文の概要: JavaVFC: Java Vulnerability Fixing Commits from Open-source Software
- arxiv url: http://arxiv.org/abs/2409.05576v1
- Date: Mon, 9 Sep 2024 13:01:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-10 14:50:09.432729
- Title: JavaVFC: Java Vulnerability Fixing Commits from Open-source Software
- Title(参考訳): JavaVFC: オープンソースソフトウェアによるJavaの脆弱性修正
- Authors: Tan Bui, Yan Naing Tun, Yiran Cheng, Ivana Clairine Irsan, Ting Zhang, Hong Jin Kang,
- Abstract要約: Javaの脆弱性修正コミット(VFC)の包括的なデータセットを提示する。
私たちのデータセットは、GitHub上の何千ものオープンソースプロジェクトから派生したもので、JavaVFCとJavaVFC拡張の2つのバリエーションで構成されています。
- 参考スコア(独自算出の注目度): 5.351340307751831
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a comprehensive dataset of Java vulnerability-fixing commits (VFCs) to advance research in Java vulnerability analysis. Our dataset, derived from thousands of open-source Java projects on GitHub, comprises two variants: JavaVFC and JavaVFC-extended. The dataset was constructed through a rigorous process involving heuristic rules and multiple rounds of manual labeling. We initially used keywords to filter candidate VFCs based on commit messages, then refined this keyword set through iterative manual labeling. The final labeling round achieved a precision score of 0.7 among three annotators. We applied the refined keyword set to 34,321 open-source Java repositories with over 50 GitHub stars, resulting in JavaVFC with 784 manually verified VFCs and JavaVFC-extended with 16,837 automatically identified VFCs. Both variants are presented in a standardized JSONL format for easy access and analysis. This dataset supports various research endeavors, including VFC identification, fine-grained vulnerability detection, and automated vulnerability repair. The JavaVFC and JavaVFC-extended are publicly available at https://zenodo.org/records/13731781.
- Abstract(参考訳): 我々は、Java脆弱性分析の研究を進めるために、Java脆弱性修正コミット(VFC)の包括的なデータセットを提案する。
私たちのデータセットは、GitHub上の何千ものオープンソースプロジェクトから派生したもので、JavaVFCとJavaVFC拡張の2つのバリエーションで構成されています。
このデータセットは、ヒューリスティックなルールと複数の手動ラベリングを含む厳密なプロセスによって構築された。
最初は、コミットメッセージに基づいて候補VFCをフィルタリングするためにキーワードを使用し、その後、反復的な手動ラベリングによってこのキーワードセットを洗練しました。
最終ラベリングラウンドは3つのアノテーターの中で精度0.7のスコアを得た。
改良されたキーワードセットを、50以上のGitHubスターを持つ34,321のオープンソースJavaリポジトリに適用した結果、手作業で検証されたVFCが784、JavaVFCが16,837で拡張されたVFCが16,837で自動的に識別された。
どちらの変種も、アクセスと分析を簡単にするための標準化されたJSONLフォーマットで提示される。
このデータセットは、VFC識別、きめ細かい脆弱性検出、自動脆弱性修正など、さまざまな研究作業をサポートしている。
JavaVFCとJavaVFCの拡張版はhttps://zenodo.org/records/13731781で公開されている。
関連論文リスト
- MegaVul: A C/C++ Vulnerability Dataset with Comprehensive Code Representation [5.821166713605872]
MegaVulは、MegaVulという名前の新しい大規模かつ包括的なC/C++脆弱性データセットである。
CVEデータベースから脆弱性のクロール可能な記述情報をすべて収集し、28のGitベースのWebサイトから脆弱性関連のコード変更をすべて抽出しました。
MegaVulには、2006年1月から2023年10月までの169の異なる脆弱性タイプにまたがる、992のオープンソースリポジトリから収集された17,380の脆弱性が含まれている。
論文 参考訳(メタデータ) (2024-06-18T09:03:18Z) - JavaBench: A Benchmark of Object-Oriented Code Generation for Evaluating Large Language Models [22.95865189208591]
OOP機能を実行するプロジェクトレベルのJavaベンチマークであるJavaBenchを提案する。
106のJavaクラスに389のメソッドを持つ4つのJavaプロジェクトで構成されている。
282人の大学生が合格し、平均スコアは90.93/100である。
論文 参考訳(メタデータ) (2024-06-10T06:43:25Z) - Analyzing the Accessibility of GitHub Repositories for PyPI and NPM Libraries [91.97201077607862]
産業アプリケーションはオープンソースソフトウェア(OSS)ライブラリに大きく依存しており、様々な利点を提供している。
このようなコミュニティの活動を監視するには、エコシステムのライブラリの包括的なリポジトリのリストにアクセスしなければなりません。
本研究では、PyPIライブラリとNPMライブラリのGitHubリポジトリのアクセシビリティを分析する。
論文 参考訳(メタデータ) (2024-04-26T13:27:04Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - VFCFinder: Seamlessly Pairing Security Advisories and Patches [7.999059840893179]
VFCFinderは、所定のセキュリティアドバイザリに対する、上位5位の脆弱性修正コミットを生成するツールである。
トップ5のコミットで正しいVFCを見つけた場合のリコールは96.6%、トップ1のコミットでは80.0%となる。
VFCFinderは9つの異なるプログラミング言語に一般化し、Top-1リコールの点で最先端のアプローチを36ポイント上回っている。
論文 参考訳(メタデータ) (2023-11-02T18:30:12Z) - VulLibGen: Generating Names of Vulnerability-Affected Packages via a Large Language Model [13.96251273677855]
VulLibGenは、影響を受けるパッケージを直接生成するメソッドである。
脆弱性のあるパッケージを識別するための平均精度は0.806である。
私たちはGitHub Advisoryに60の脆弱性、影響のあるパッケージ>ペアを提出しました。
論文 参考訳(メタデータ) (2023-08-09T02:02:46Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Exploring Security Commits in Python [11.533638656389137]
Pythonのほとんどのセキュリティ問題は、CVEによってインデックス化されておらず、'silent'セキュリティコミットによってのみ修正される可能性がある。
限られたデータバリエーション、非包括的コードセマンティクス、解釈不能な学習機能のために、隠れたセキュリティコミットを特定することが重要だ。
Pythonの最初のセキュリティコミットデータセットであるPySecDBを構築し、ベースデータセット、パイロットデータセット、拡張データセットを含む3つのサブセットで構成される。
論文 参考訳(メタデータ) (2023-07-21T18:46:45Z) - On the Security Blind Spots of Software Composition Analysis [46.1389163921338]
Mavenリポジトリで脆弱性のあるクローンを検出するための新しいアプローチを提案する。
Maven Centralから53万以上の潜在的な脆弱性のあるクローンを検索します。
検出された727個の脆弱なクローンを検出し、それぞれに検証可能な脆弱性証明プロジェクトを合成する。
論文 参考訳(メタデータ) (2023-06-08T20:14:46Z) - REaaS: Enabling Adversarially Robust Downstream Classifiers via Robust
Encoder as a Service [67.0982378001551]
サービスプロバイダがエンコーダを事前トレーニングして、クラウドサービスAPIとしてデプロイする方法を示します。
クライアントはクラウドサービスAPIに問い合わせて、トレーニング/テスト入力のフィーチャーベクタを取得する。
私たちは、クライアントが下流の分類器の堅牢性を証明できるように、クラウドサービスが2つのAPIを提供する必要があることを示しています。
論文 参考訳(メタデータ) (2023-01-07T17:40:11Z) - 1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic
Segmentation Track [67.56316745239629]
本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。
本手法では,エンコーダとしてFAN-B-Hybridモデルを採用し,セグメンテーションフレームワークとしてSegformerを使用している。
提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。
論文 参考訳(メタデータ) (2022-10-23T20:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。