論文の概要: PUMiner: Mining Security Posts from Developer Question and Answer
Websites with PU Learning
- arxiv url: http://arxiv.org/abs/2003.03741v1
- Date: Sun, 8 Mar 2020 08:11:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 14:47:59.788290
- Title: PUMiner: Mining Security Posts from Developer Question and Answer
Websites with PU Learning
- Title(参考訳): PUMiner: 開発者質問からのセキュリティポストのマイニングとPU学習によるWebサイトへの回答
- Authors: Triet H. M. Le, David Hin, Roland Croft, M. Ali Babar
- Abstract要約: 本稿では,Q&A サイトからセキュリティポストを自動的にマイニングする新しい学習フレームワーク PUMiner を提案する。
PUMinerは、投稿の特徴を抽出するためにコンテキスト対応の埋め込みモデルを構築し、セキュリティコンテンツを識別するための2段階のPUモデルを開発する。
私たちはPUMinerをStack Overflowの1720万以上の投稿とSecurity StackExchangeの52,611の投稿で評価しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Security is an increasing concern in software development. Developer Question
and Answer (Q&A) websites provide a large amount of security discussion.
Existing studies have used human-defined rules to mine security discussions,
but these works still miss many posts, which may lead to an incomplete analysis
of the security practices reported on Q&A websites. Traditional supervised
Machine Learning methods can automate the mining process; however, the required
negative (non-security) class is too expensive to obtain. We propose a novel
learning framework, PUMiner, to automatically mine security posts from Q&A
websites. PUMiner builds a context-aware embedding model to extract features of
the posts, and then develops a two-stage PU model to identify security content
using the labelled Positive and Unlabelled posts. We evaluate PUMiner on more
than 17.2 million posts on Stack Overflow and 52,611 posts on Security
StackExchange. We show that PUMiner is effective with the validation
performance of at least 0.85 across all model configurations. Moreover,
Matthews Correlation Coefficient (MCC) of PUMiner is 0.906, 0.534 and 0.084
points higher than one-class SVM, positive-similarity filtering, and one-stage
PU models on unseen testing posts, respectively. PUMiner also performs well
with an MCC of 0.745 for scenarios where string matching totally fails. Even
when the ratio of the labelled positive posts to the unlabelled ones is only
1:100, PUMiner still achieves a strong MCC of 0.65, which is 160% better than
fully-supervised learning. Using PUMiner, we provide the largest and up-to-date
security content on Q&A websites for practitioners and researchers.
- Abstract(参考訳): セキュリティはソフトウェア開発における関心の高まりだ。
Developer Question and Answer (Q&A) Webサイトは、大量のセキュリティに関する議論を行っている。
既存の研究では、セキュリティに関する議論に人間定義のルールを用いたが、これらの研究は依然として多くの投稿を見逃しており、q&aウェブサイトで報告されたセキュリティプラクティスの不完全な分析に繋がる可能性がある。
従来の教師付き機械学習手法はマイニングプロセスを自動化できるが、必要なネガティブ(非セキュリティ)クラスを取得するには高価すぎる。
本稿では,Q&A サイトからセキュリティポストを自動的にマイニングする新しい学習フレームワーク PUMiner を提案する。
PUMinerは、投稿の特徴を抽出するコンテキスト対応の埋め込みモデルを構築し、ラベル付きPositiveとUnlabelledを使ってセキュリティコンテンツを識別する2段階のPUモデルを開発する。
私たちはPUMinerをStack Overflowの1720万以上の投稿とSecurity StackExchangeの52,611の投稿で評価しています。
PUMiner はすべてのモデル構成に対して少なくとも 0.85 の検証性能で有効であることを示す。
さらに,puminerのマシューズ相関係数 (mcc) はそれぞれ0.906, 0.534, 0.084点高く, 正の類似性フィルタリング, および一段階のpuモデルである。
PUMinerは文字列マッチングが完全に失敗するシナリオのMCCも0.745である。
ラベル付きポジティブポストと非ラベル付きポストの比率が1:100 である場合でも、PUMiner は 0.65 の強いMCCを達成し、完全な教師付き学習よりも 160% よい。
PUMinerを使うことで、実践者や研究者に対して、Q&Aウェブサイト上で最大かつ最新のセキュリティコンテンツを提供する。
関連論文リスト
- What Makes and Breaks Safety Fine-tuning? A Mechanistic Study [64.9691741899956]
安全性の微調整は、大規模な言語モデル(LLM)を、安全なデプロイメントのための人間の好みに合わせるのに役立つ。
安全でない入力の健全な側面をキャプチャする合成データ生成フレームワークを設計する。
これを用いて,3つのよく知られた安全微調整手法について検討する。
論文 参考訳(メタデータ) (2024-07-14T16:12:57Z) - Introducing v0.5 of the AI Safety Benchmark from MLCommons [101.98401637778638]
本稿では,MLCommons AI Safety Working Groupが作成したAI Safety Benchmarkのv0.5を紹介する。
このベンチマークは、チャットチューニング言語モデルを使用するAIシステムの安全性リスクを評価するように設計されている。
論文 参考訳(メタデータ) (2024-04-18T15:01:00Z) - A Preliminary Study on Using Large Language Models in Software
Pentesting [2.0551676463612636]
大規模言語モデル(LLM)は、セキュリティタスクを自動化するための有望な可能性を提供すると考えられている。
ソフトウェアペンテスティングにおけるLLMの使用について検討し,ソースコード中のソフトウェアセキュリティ脆弱性を自動的に識別する作業を行う。
論文 参考訳(メタデータ) (2024-01-30T21:42:59Z) - SimpleSafetyTests: a Test Suite for Identifying Critical Safety Risks in
Large Language Models [15.896567445646784]
このような重要な安全性リスクを迅速かつ体系的に識別するための新しいテストスイートとしてSimpleSafetyTests(SST)を紹介します。
テストスイートは、5つのハーネス領域にわたる100のテストプロンプトで構成されており、LLMは、ほとんどのアプリケーションにおいて、コンプライアンスを拒否すべきである。
いくつかのモデルは単一の安全でない応答を与えないが、ほとんどのモデルは20%以上のプロンプトに対して安全でない応答を与え、極端に50%以上の安全でない応答を与える。
論文 参考訳(メタデータ) (2023-11-14T18:33:43Z) - SecurityNet: Assessing Machine Learning Vulnerabilities on Public Models [74.58014281829946]
本研究では, モデル盗難攻撃, メンバーシップ推論攻撃, パブリックモデルにおけるバックドア検出など, いくつかの代表的な攻撃・防御の有効性を解析する。
実験により,これらの攻撃・防御性能は,自己学習モデルと比較して,公共モデルによって大きく異なることが示された。
論文 参考訳(メタデータ) (2023-10-19T11:49:22Z) - CodeLMSec Benchmark: Systematically Evaluating and Finding Security
Vulnerabilities in Black-Box Code Language Models [58.27254444280376]
自動コード生成のための大規模言語モデル(LLM)は、いくつかのプログラミングタスクにおいてブレークスルーを達成した。
これらのモデルのトレーニングデータは、通常、インターネット(例えばオープンソースのリポジトリから)から収集され、障害やセキュリティ上の脆弱性を含む可能性がある。
この不衛生なトレーニングデータは、言語モデルにこれらの脆弱性を学習させ、コード生成手順中にそれを伝播させる可能性がある。
論文 参考訳(メタデータ) (2023-02-08T11:54:07Z) - Automata Learning meets Shielding [1.1417805445492082]
安全は、強化学習(RL)における主要な研究課題の1つである。
本稿では,確率的,部分的に未知な環境下での探査において,RLエージェントの安全違反を回避する方法について述べる。
提案手法は,マルコフ決定過程(MDP)の自動学習とシールド合成を反復的手法で組み合わせたものである。
論文 参考訳(メタデータ) (2022-12-04T14:58:12Z) - Provable Safe Reinforcement Learning with Binary Feedback [62.257383728544006]
状態, アクションペアの安全性に対するバイナリフィードバックを提供するオフラインオラクルへのアクセスを与えられた場合, 証明可能な安全なRLの問題を考える。
我々は,その設定に対してブラックボックスPAC RLアルゴリズムに与えられた任意のMDP設定に適用可能な,新しいメタアルゴリズムSABREを提案する。
論文 参考訳(メタデータ) (2022-10-26T05:37:51Z) - Why Should Adversarial Perturbations be Imperceptible? Rethink the
Research Paradigm in Adversarial NLP [83.66405397421907]
セキュリティシナリオにおけるテキスト敵検体の研究パラダイムを再考する。
最初に、セキュリティデータセットコレクションのAdvbenchを収集し、処理し、リリースします。
次に,現実の攻撃手法をシミュレートするために,現実の敵目標を容易に達成できるルールに基づく簡単な手法を提案する。
論文 参考訳(メタデータ) (2022-10-19T15:53:36Z) - An Empirical Study of IoT Security Aspects at Sentence-Level in
Developer Textual Discussions [0.8029049649310213]
Stack Overflowでセキュリティ関連のIoTに関する議論を自動的に見つけることができるモデルを開発した。
モデル出力を調査して、IoT開発者セキュリティ関連の課題について学ぶ。
論文 参考訳(メタデータ) (2022-06-07T07:54:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。