論文の概要: Smart Cuts: Enhance Active Learning for Vulnerability Detection by Pruning Hard-to-Learn Data
- arxiv url: http://arxiv.org/abs/2506.20444v2
- Date: Fri, 15 Aug 2025 19:44:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.094266
- Title: Smart Cuts: Enhance Active Learning for Vulnerability Detection by Pruning Hard-to-Learn Data
- Title(参考訳): スマートカット:ハード・ツー・ラーン・データによる脆弱性検出のためのアクティブ・ラーニング
- Authors: Xiang Lan, Tim Menzies, Bowen Xu,
- Abstract要約: 脆弱性検出は、ソフトウェアシステムのセキュリティの弱点を特定するために不可欠である。
本稿では,データセットマップを用いて,アクティブな学習プロセスを大幅に向上させる新しい手法を提案する。
提案手法は,モデルにとって難解なサンプルを体系的に同定し,この情報を統合し,より洗練されたサンプル選択戦略を作成する。
- 参考スコア(独自算出の注目度): 15.490968013867562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vulnerability detection is crucial for identifying security weaknesses in software systems. However, training effective machine learning models for this task is often constrained by the high cost and expertise required for data annotation. Active learning is a promising approach to mitigate this challenge by intelligently selecting the most informative data points for labeling. This paper proposes a novel method to significantly enhance the active learning process by using dataset maps. Our approach systematically identifies samples that are hard-to-learn for a model and integrates this information to create a more sophisticated sample selection strategy. Unlike traditional active learning methods that focus primarily on model uncertainty, our strategy enriches the selection process by considering learning difficulty, allowing the active learner to more effectively pinpoint truly informative examples. The experimental results show that our approach can improve F1 score over random selection by 61.54% (DeepGini) and 45.91% (K-Means) and outperforms standard active learning by 8.23% (DeepGini) and 32.65% (K-Means) for CodeBERT on the Big-Vul dataset, demonstrating the effectiveness of integrating dataset maps for optimizing sample selection in vulnerability detection. Furthermore, our approach also enhances model robustness, improves sample selection by filtering hard-to-learn data, and stabilizes active learning performance across iterations. By analyzing the characteristics of these outliers, we provide insights for future improvements in dataset construction, making vulnerability detection more reliable and cost-effective.
- Abstract(参考訳): 脆弱性検出は、ソフトウェアシステムのセキュリティの弱点を特定するために不可欠である。
しかし、このタスクのための効果的な機械学習モデルのトレーニングは、しばしばデータアノテーションに必要な高コストと専門知識によって制約される。
アクティブラーニングは、ラベル付けのための最も情報性の高いデータポイントをインテリジェントに選択することで、この課題を軽減するための有望なアプローチである。
本稿では,データセットマップを用いて,アクティブな学習プロセスを大幅に向上させる新しい手法を提案する。
提案手法は,モデルにとって難解なサンプルを体系的に同定し,この情報を統合し,より洗練されたサンプル選択戦略を作成する。
モデル不確実性に主眼を置いている従来のアクティブラーニング手法とは異なり、我々の戦略は学習難度を考慮して選択プロセスを強化し、アクティブラーニング者が真に有意義な例をより効果的に特定できるようにする。
実験の結果,提案手法はランダム選択よりもF1スコアを61.54%(DeepGini),45.91%(K-Means),標準アクティブ学習を8.23%(DeepGini),32.65%(K-Means)で改善し,脆弱性検出におけるサンプル選択を最適化するためのデータセットマップの統合の有効性を示した。
さらに,本手法は,モデルロバスト性の向上,ハード・トゥ・ラーンデータのフィルタリングによるサンプル選択の改善,イテレーション間のアクティブな学習性能の安定化を実現している。
これらの外れ値の特徴を解析することにより、データセット構築における将来の改善に対する洞察を提供し、脆弱性検出をより信頼性が高く、コスト効率が良いものにする。
関連論文リスト
- Z-Error Loss for Training Neural Networks [0.0]
異常勾配を伝播することで、モデル性能と一般化を低下させることができる。
本稿では,Z-Error Lossを提案する。Z-Error Lossは,各バッチにおけるアウト・オブ・ディストリビューション(out-of-distribution)として認識されるデータポイントの寄与を隠蔽することにより,トレーニング中のアウトラヤの影響を最小限に抑える,統計的に原理化されたアプローチである。
論文 参考訳(メタデータ) (2025-06-02T18:35:30Z) - Contrastive and Variational Approaches in Self-Supervised Learning for Complex Data Mining [36.772769830368475]
本研究では,複雑なデータマイニングにおける自己教師あり学習手法の役割を,系統的な実験を通して分析した。
その結果, モデルが異なるデータセットに対して高い適応性を示し, ラベルのないデータから高品質な特徴を効果的に抽出し, 分類精度を向上させることができた。
論文 参考訳(メタデータ) (2025-04-05T02:55:44Z) - Improving the Efficiency of Self-Supervised Adversarial Training through Latent Clustering-Based Selection [2.7554677967598047]
逆向きの堅牢な学習は、トレーニングの例をはるかに多く求めていると広く認識されている。
近年の研究では、モデルロバスト性を高めるために、外部または合成された未ラベルデータを用いた自己教師付き対人訓練が提案されている。
そこで本稿では,SSATに不可欠なラベルなしデータの小さなサブセットを戦略的に選択し,ロバスト性を向上させる手法を提案する。
論文 参考訳(メタデータ) (2025-01-15T15:47:49Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - DRoP: Distributionally Robust Data Pruning [11.930434318557156]
我々は、訓練されたモデルの分類バイアスにデータプルーニングが与える影響について、最初の系統的研究を行う。
そこで我々はDRoPを提案する。DRoPは,標準的なコンピュータビジョンベンチマークにおいて,その性能を実証的に実証し,分散的に頑健な手法である。
論文 参考訳(メタデータ) (2024-04-08T14:55:35Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - SoftMatch: Addressing the Quantity-Quality Trade-off in Semi-supervised
Learning [101.86916775218403]
本稿では, サンプル重み付けを統一した定式化により, 一般的な擬似ラベル法を再検討する。
トレーニング中の擬似ラベルの量と質を両立させることでトレードオフを克服するSoftMatchを提案する。
実験では、画像、テキスト、不均衡な分類など、さまざまなベンチマークで大幅に改善されている。
論文 参考訳(メタデータ) (2023-01-26T03:53:25Z) - Temporal Output Discrepancy for Loss Estimation-based Active Learning [65.93767110342502]
ラベルのないサンプルが高損失を伴っていると信じられている場合に,データアノテーションのオラクルに問い合わせる,新しいディープラーニングアプローチを提案する。
本手法は,画像分類やセマンティックセグメンテーションタスクにおける最先端の能動学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-12-20T19:29:37Z) - Towards Reducing Labeling Cost in Deep Object Detection [61.010693873330446]
本稿では,検知器の不確実性と頑健性の両方を考慮した,アクティブラーニングのための統一的なフレームワークを提案する。
提案手法は, 確率分布のドリフトを抑えながら, 極めて確実な予測を擬似ラベル化することができる。
論文 参考訳(メタデータ) (2021-06-22T16:53:09Z) - Auto-weighted Robust Federated Learning with Corrupted Data Sources [7.475348174281237]
フェデレーション学習はコミュニケーション効率とプライバシ保護のトレーニングプロセスを提供する。
平均損失関数をナイーブに最小化する標準的なフェデレーション学習技術は、データの破損に弱い。
破損したデータソースに対して堅牢性を提供するために、自動重み付けロバストフェデレーテッドラーニング(arfl)を提案します。
論文 参考訳(メタデータ) (2021-01-14T21:54:55Z) - Adversarial Self-Supervised Contrastive Learning [62.17538130778111]
既存の対数学習アプローチは、主にクラスラベルを使用して、誤った予測につながる対数サンプルを生成する。
本稿では,未ラベルデータに対する新たな逆攻撃を提案する。これにより,モデルが摂動データサンプルのインスタンスレベルのアイデンティティを混乱させる。
ラベル付きデータなしで頑健なニューラルネットワークを逆さまにトレーニングするための,自己教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T08:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。