論文の概要: Smart Cuts: Enhance Active Learning for Vulnerability Detection by Pruning Bad Seeds
- arxiv url: http://arxiv.org/abs/2506.20444v1
- Date: Wed, 25 Jun 2025 13:50:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.76629
- Title: Smart Cuts: Enhance Active Learning for Vulnerability Detection by Pruning Bad Seeds
- Title(参考訳): スマートカット:悪い種子の刈り取りによる脆弱性検出のためのアクティブラーニング
- Authors: Xiang Lan, Tim Menzies, Bowen Xu,
- Abstract要約: 脆弱性検出は、ソフトウェアシステムのセキュリティの弱点を特定するために不可欠である。
本稿では,難解な外乱を識別・緩和する新しいデータセットマップを用いたアプローチを提案する。
本手法では,学習難易度に基づいて学習例を分類し,この情報をアクティブな学習フレームワークに統合することができる。
- 参考スコア(独自算出の注目度): 15.490968013867562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability detection is crucial for identifying security weaknesses in software systems. However, the effectiveness of machine learning models in this domain is often hindered by low-quality training datasets, which contain noisy, mislabeled, or imbalanced samples. This paper proposes a novel dataset maps-empowered approach that systematically identifies and mitigates hard-to-learn outliers, referred to as "bad seeds", to improve model training efficiency. Our approach can categorize training examples based on learning difficulty and integrate this information into an active learning framework. Unlike traditional methods that focus on uncertainty-based sampling, our strategy prioritizes dataset quality by filtering out performance-harmful samples while emphasizing informative ones. Our experimental results show that our approach can improve F1 score over random selection by 45.36% (DeepGini) and 45.91% (K-Means) and outperforms standard active learning by 61.46% (DeepGini) and 32.65% (K-Means) for CodeBERT on the Big-Vul dataset, demonstrating the effectiveness of integrating dataset maps for optimizing sample selection in vulnerability detection. Furthermore, our approach also enhances model robustness, improves sample selection by filtering bad seeds, and stabilizes active learning performance across iterations. By analyzing the characteristics of these outliers, we provide insights for future improvements in dataset construction, making vulnerability detection more reliable and cost-effective.
- Abstract(参考訳): 脆弱性検出は、ソフトウェアシステムのセキュリティの弱点を特定するために不可欠である。
しかし、この領域における機械学習モデルの有効性は、ノイズ、ラベルミス、アンバランスなサンプルを含む低品質のトレーニングデータセットによって妨げられることが多い。
本稿では, モデル学習効率を向上させるために, 学習の難易度を体系的に同定し, 緩和する, モデルマップを用いた新しいアプローチを提案する。
本手法では,学習難易度に基づいて学習例を分類し,この情報をアクティブな学習フレームワークに統合することができる。
不確実性に基づくサンプリングに重点を置く従来の方法とは異なり、当社の戦略は、パフォーマンスに有害なサンプルをフィルタリングし、有益なサンプルを強調することによって、データセットの品質を優先します。
実験の結果,提案手法はランダム選択よりもF1スコアを45.36%(DeepGini),45.91%(K-Means),標準アクティブ学習を61.46%(DeepGini),32.65%(K-Means)で改善し,脆弱性検出におけるサンプル選択を最適化するためのデータセットマップの統合の有効性を示した。
さらに,本手法はモデルロバスト性を向上し,悪い種子をフィルタリングすることでサンプル選択を改善し,反復的に能動的学習性能を安定化する。
これらの外れ値の特徴を解析することにより、データセット構築における将来の改善に対する洞察を提供し、脆弱性検出をより信頼性が高く、コスト効率が良いものにする。
関連論文リスト
- Z-Error Loss for Training Neural Networks [0.0]
異常勾配を伝播することで、モデル性能と一般化を低下させることができる。
本稿では,Z-Error Lossを提案する。Z-Error Lossは,各バッチにおけるアウト・オブ・ディストリビューション(out-of-distribution)として認識されるデータポイントの寄与を隠蔽することにより,トレーニング中のアウトラヤの影響を最小限に抑える,統計的に原理化されたアプローチである。
論文 参考訳(メタデータ) (2025-06-02T18:35:30Z) - Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection [2.7554677967598047]
逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。
近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。
そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T15:47:49Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Auto-weighted Robust Federated Learning with Corrupted Data Sources [7.475348174281237]
フェデレーション学習はコミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。
平均損失関数をナイーブに最小化する標準的なフェデレーション学習技術は、データの破損に弱い。
破損したデータソースに対して堅牢性を提供するために、自動重み付けロバストフェデレーテッドラーニング(arfl)を提案します。
論文 参考訳(メタデータ) (2021-01-14T21:54:55Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。