論文の概要: When Less is Enough: Positive and Unlabeled Learning Model for
Vulnerability Detection
- arxiv url: http://arxiv.org/abs/2308.10523v1
- Date: Mon, 21 Aug 2023 07:21:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-22 14:38:33.280755
- Title: When Less is Enough: Positive and Unlabeled Learning Model for
Vulnerability Detection
- Title(参考訳): 不十分な場合:脆弱性検出のための正および未ラベル学習モデル
- Authors: Xin-Cheng Wen, Xinchen Wang, Cuiyun Gao, Shaohua Wang, Yang Liu,
Zhaoquan Gu
- Abstract要約: 本稿では,脆弱性検出のためのPositive and Unlabeled (PU)学習問題に焦点をあてる。
本稿では,脆弱性検出のためのPILOT,すなわちPositIveと未ラベル学習mOdelを提案する。
- 参考スコア(独自算出の注目度): 18.45462960578864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated code vulnerability detection has gained increasing attention in
recent years. The deep learning (DL)-based methods, which implicitly learn
vulnerable code patterns, have proven effective in vulnerability detection. The
performance of DL-based methods usually relies on the quantity and quality of
labeled data. However, the current labeled data are generally automatically
collected, such as crawled from human-generated commits, making it hard to
ensure the quality of the labels. Prior studies have demonstrated that the
non-vulnerable code (i.e., negative labels) tends to be unreliable in
commonly-used datasets, while vulnerable code (i.e., positive labels) is more
determined. Considering the large numbers of unlabeled data in practice, it is
necessary and worth exploring to leverage the positive data and large numbers
of unlabeled data for more accurate vulnerability detection.
In this paper, we focus on the Positive and Unlabeled (PU) learning problem
for vulnerability detection and propose a novel model named PILOT, i.e.,
PositIve and unlabeled Learning mOdel for vulnerability deTection. PILOT only
learns from positive and unlabeled data for vulnerability detection. It mainly
contains two modules: (1) A distance-aware label selection module, aiming at
generating pseudo-labels for selected unlabeled data, which involves the
inter-class distance prototype and progressive fine-tuning; (2) A
mixed-supervision representation learning module to further alleviate the
influence of noise and enhance the discrimination of representations.
- Abstract(参考訳): 近年,自動コード脆弱性検出が注目されている。
脆弱なコードパターンを暗黙的に学習するディープラーニング(DL)ベースの手法は、脆弱性検出に有効であることが証明されている。
DLベースの手法の性能は通常ラベル付きデータの量と品質に依存する。
しかし、現在のラベル付きデータは、人間が生成したコミットからクロールするなど、一般的に自動的に収集されるため、ラベルの品質を保証するのが難しくなる。
以前の研究では、非脆弱性コード(負のラベル)が一般的に使用されるデータセットでは信頼できない傾向にあり、弱いコード(正のラベル)がより決定される傾向が示されている。
実際には大量のラベルなしデータを考えると、より正確な脆弱性検出のために、ポジティブなデータと大量のラベルなしデータを活用する必要がある。
本稿では,脆弱性検出のためのPositive and Unlabeled(PU)学習問題に着目し,脆弱性検出のためのPILOT,すなわちPositIveとUnlabeled Learning mOdelを提案する。
PILOTは、脆弱性検出のための正および未ラベルのデータからのみ学習する。
主に,(1) クラス間距離プロトタイプとプログレッシブ微調整を含む,選択されたラベル付きデータに対する擬似ラベル生成を目的とした距離対応ラベル選択モジュール,(2) ノイズの影響を緩和し,表現の識別を強化する混合スーパービジョン表現学習モジュールの2つのモジュールを含む。
関連論文リスト
- Adaptive Label Error Detection: A Bayesian Approach to Mislabeled Data Detection [0.5284217353503208]
本稿では, 誤り検出手法である適応ラベル誤り検出(Adaptive Label Error Detection, ALED)のモチベーションと記述を行う。
ALEDは、確立されたラベル誤り検出方法と比較して、精度を損なうことなく、感度を著しく向上させた。
修正データ上でニューラルネットワークを微調整すると、テストセットエラーが33.8%減少する例を示す。
論文 参考訳(メタデータ) (2026-01-15T05:20:00Z) - Integrating Distribution Matching into Semi-Supervised Contrastive Learning for Labeled and Unlabeled Data [1.0312968200748116]
半教師付きコントラスト学習(SSL)は、少量のラベル付きデータと大量のラベル付きデータとが共存するシナリオにおいて非常に関係がある。
本研究の目的は,ラベル付きとラベルなしの機能埋め込みの分散マッチングを組み込むことにより,擬似ラベルベースのSSLを強化することである。
論文 参考訳(メタデータ) (2026-01-08T02:32:12Z) - Sharpness-aware Dynamic Anchor Selection for Generalized Category Discovery [61.694524826522205]
既知のクラスのラベル付きデータを考えると、GCDは既知のクラスと未知のクラスの両方を含むラベルなしデータをクラスタ化することを目的としている。
大規模な事前学習モデルでは、特定の視覚的パターンが好まれ、ラベルのないデータに対して刺激的な相関を符号化する。
LSP(Los Sharpness Penalty)とDAS(Dynamic Anchor Selection)の2つのモジュールを含む新しい手法を提案する。
論文 参考訳(メタデータ) (2025-12-15T02:24:06Z) - Weakly Supervised Vulnerability Localization via Multiple Instance Learning [46.980136742826836]
WeAkly によるマルチプルインスタンス学習による脆弱性ローカライゼーションのための WAVES という新しい手法を提案する。
WAVESは、ある関数が脆弱かどうか(すなわち脆弱性検出)を判定し、脆弱なステートメントをピンポイントする機能を持っている。
提案手法は,文レベルの脆弱性ローカライゼーションにおいて,脆弱性検出と最先端のパフォーマンスにおいて同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-09-14T15:11:39Z) - Adversarial Augmentation and Active Sampling for Robust Cyber Anomaly Detection [1.102914654802229]
Advanced Persistent Threats (APTs)は、そのステルスで長期にわたる性質のために、サイバーセキュリティにかなり挑戦している。
従来の教師付き学習手法は、通常大量のラベル付きデータを必要とする。
本稿では,自動エンコーダによる異常検出と能動的学習を組み合わせて,APT検出を反復的に向上する手法を提案する。
論文 参考訳(メタデータ) (2025-09-05T10:47:49Z) - ANVIL: Anomaly-based Vulnerability Identification without Labelled Training Data [5.938113434208745]
教師付き学習ベースのソフトウェア脆弱性検出装置は、ラベル付きトレーニングデータの不十分な可用性のために、しばしば不足する。
本稿では,脆弱性検出を異常検出の1つとして再検討する。
我々のアプローチは、ラインレベルの脆弱性検出タスクにおいて、1.62times$から2.18times$より優れたトップ5アキュラシー、1.02times$から1.29times$より優れたROCスコアを達成する。
論文 参考訳(メタデータ) (2024-08-28T03:28:17Z) - Improving Label Error Detection and Elimination with Uncertainty Quantification [5.184615738004059]
我々は不確実な量子化に基づくラベル誤り検出(UQ-LED)のための新しいモデル認識アルゴリズムを開発した。
我々のUQ-LEDアルゴリズムは、ラベルエラーの同定において最先端の信頼性学習より優れている。
本稿では,現実的なクラス依存ラベルエラーを合成的に生成する手法を提案する。
論文 参考訳(メタデータ) (2024-05-15T15:17:52Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Boosting Semi-Supervised Learning by bridging high and low-confidence
predictions [4.18804572788063]
Pseudo-labelingは半教師あり学習(SSL)において重要な技術である
ReFixMatchと呼ばれる新しい手法を提案し、これはトレーニング中にラベルなしのデータをすべて活用することを目的としている。
論文 参考訳(メタデータ) (2023-08-15T00:27:18Z) - Robust Positive-Unlabeled Learning via Noise Negative Sample
Self-correction [48.929877651182885]
正および未ラベルのデータから学ぶことは、文学における正の未ラベル(PU)学習として知られている。
本研究では,人間の学習の性質を動機とした学習戦略を取り入れた,新しい堅牢なPU学習手法を提案する。
論文 参考訳(メタデータ) (2023-08-01T04:34:52Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Robust Deep Semi-Supervised Learning: A Brief Introduction [63.09703308309176]
半教師付き学習(SSL)は、ラベルが不十分なときにラベル付きデータを活用することにより、学習性能を向上させることを目的としている。
ディープモデルによるSSLは、標準ベンチマークタスクで成功したことが証明されている。
しかし、それらは現実世界のアプリケーションにおける様々な堅牢性に対する脅威に対して依然として脆弱である。
論文 参考訳(メタデータ) (2022-02-12T04:16:41Z) - A Novel Perspective for Positive-Unlabeled Learning via Noisy Labels [49.990938653249415]
本研究では,初期疑似ラベルを雑音ラベルデータとして用いる非ラベルデータに割り当て,雑音ラベルデータを用いて深層ニューラルネットワークを訓練する手法を提案する。
実験の結果,提案手法は,いくつかのベンチマークデータセットにおいて,最先端の手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-03-08T11:46:02Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。