論文の概要: When Less is Enough: Positive and Unlabeled Learning Model for
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2308.10523v1
- Date: Mon, 21 Aug 2023 07:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:38:33.280755
- Title: When Less is Enough: Positive and Unlabeled Learning Model for
Vulnerability Detection
- Title(参考訳): 不十分な場合:脆弱性検出のための正および未ラベル学習モデル
- Authors: Xin-Cheng Wen, Xinchen Wang, Cuiyun Gao, Shaohua Wang, Yang Liu,
Zhaoquan Gu
- Abstract要約: 本稿では,脆弱性検出のためのPositive and Unlabeled (PU)学習問題に焦点をあてる。
本稿では,脆弱性検出のためのPILOT,すなわちPositIveと未ラベル学習mOdelを提案する。
- 参考スコア(独自算出の注目度): 18.45462960578864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated code vulnerability detection has gained increasing attention in
recent years. The deep learning (DL)-based methods, which implicitly learn
vulnerable code patterns, have proven effective in vulnerability detection. The
performance of DL-based methods usually relies on the quantity and quality of
labeled data. However, the current labeled data are generally automatically
collected, such as crawled from human-generated commits, making it hard to
ensure the quality of the labels. Prior studies have demonstrated that the
non-vulnerable code (i.e., negative labels) tends to be unreliable in
commonly-used datasets, while vulnerable code (i.e., positive labels) is more
determined. Considering the large numbers of unlabeled data in practice, it is
necessary and worth exploring to leverage the positive data and large numbers
of unlabeled data for more accurate vulnerability detection.
In this paper, we focus on the Positive and Unlabeled (PU) learning problem
for vulnerability detection and propose a novel model named PILOT, i.e.,
PositIve and unlabeled Learning mOdel for vulnerability deTection. PILOT only
learns from positive and unlabeled data for vulnerability detection. It mainly
contains two modules: (1) A distance-aware label selection module, aiming at
generating pseudo-labels for selected unlabeled data, which involves the
inter-class distance prototype and progressive fine-tuning; (2) A
mixed-supervision representation learning module to further alleviate the
influence of noise and enhance the discrimination of representations.
- Abstract(参考訳): 近年,自動コード脆弱性検出が注目されている。
脆弱なコードパターンを暗黙的に学習するディープラーニング(DL)ベースの手法は、脆弱性検出に有効であることが証明されている。
DLベースの手法の性能は通常ラベル付きデータの量と品質に依存する。
しかし、現在のラベル付きデータは、人間が生成したコミットからクロールするなど、一般的に自動的に収集されるため、ラベルの品質を保証するのが難しくなる。
以前の研究では、非脆弱性コード(負のラベル)が一般的に使用されるデータセットでは信頼できない傾向にあり、弱いコード(正のラベル)がより決定される傾向が示されている。
実際には大量のラベルなしデータを考えると、より正確な脆弱性検出のために、ポジティブなデータと大量のラベルなしデータを活用する必要がある。
本稿では,脆弱性検出のためのPositive and Unlabeled(PU)学習問題に着目し,脆弱性検出のためのPILOT,すなわちPositIveとUnlabeled Learning mOdelを提案する。
PILOTは、脆弱性検出のための正および未ラベルのデータからのみ学習する。
主に,(1) クラス間距離プロトタイプとプログレッシブ微調整を含む,選択されたラベル付きデータに対する擬似ラベル生成を目的とした距離対応ラベル選択モジュール,(2) ノイズの影響を緩和し,表現の識別を強化する混合スーパービジョン表現学習モジュールの2つのモジュールを含む。
関連論文リスト
- ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [5.938113434208745]
教師付き学習ベースのソフトウェア脆弱性検出装置は、ラベル付きトレーニングデータの不十分な可用性のために、しばしば不足する。
本稿では,脆弱性検出を異常検出の1つとして再検討する。
我々のアプローチは、ラインレベルの脆弱性検出タスクにおいて、1.62times$から2.18times$より優れたトップ5アキュラシー、1.02times$から1.29times$より優れたROCスコアを達成する。
論文 参考訳(メタデータ) (2024-08-28T03:28:17Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。