論文の概要: Today's Cat Is Tomorrow's Dog: Accounting for Time-Based Changes in the Labels of ML Vulnerability Detection Approaches
- arxiv url: http://arxiv.org/abs/2506.11939v1
- Date: Fri, 13 Jun 2025 16:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.883928
- Title: Today's Cat Is Tomorrow's Dog: Accounting for Time-Based Changes in the Labels of ML Vulnerability Detection Approaches
- Title(参考訳): 今日の猫は明日の犬:ML脆弱性検出手法のラベルの経時的変化
- Authors: Ranindya Paramitha, Yuan Feng, Fabio Massacci,
- Abstract要約: MLテストに使用される脆弱性データセットには、レトロスペクティブ情報が暗黙的に含まれている。
脆弱性はカレンダー時間を通じて発見されるため、ラベルの変更と過去のパフォーマンスは、必ずしも将来のパフォーマンスと一致しない。
学習ラベルとテストラベルの両方が変化し、その時点で利用可能な知識を考慮に入れたデータセットを再構築する手法を提案する。
- 参考スコア(独自算出の注目度): 6.035129972551483
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vulnerability datasets used for ML testing implicitly contain retrospective information. When tested on the field, one can only use the labels available at the time of training and testing (e.g. seen and assumed negatives). As vulnerabilities are discovered across calendar time, labels change and past performance is not necessarily aligned with future performance. Past works only considered the slices of the whole history (e.g. DiverseVUl) or individual differences between releases (e.g. Jimenez et al. ESEC/FSE 2019). Such approaches are either too optimistic in training (e.g. the whole history) or too conservative (e.g. consecutive releases). We propose a method to restructure a dataset into a series of datasets in which both training and testing labels change to account for the knowledge available at the time. If the model is actually learning, it should improve its performance over time as more data becomes available and data becomes more stable, an effect that can be checked with the Mann-Kendall test. We validate our methodology for vulnerability detection with 4 time-based datasets (3 projects from BigVul dataset + Vuldeepecker's NVD) and 5 ML models (Code2Vec, CodeBERT, LineVul, ReGVD, and Vuldeepecker). In contrast to the intuitive expectation (more retrospective information, better performance), the trend results show that performance changes inconsistently across the years, showing that most models are not learning.
- Abstract(参考訳): MLテストに使用される脆弱性データセットには、レトロスペクティブ情報が暗黙的に含まれている。
フィールドでテストする場合、トレーニングやテスト時に利用可能なラベルのみを使用することができる(例: 負と仮定)。
脆弱性はカレンダー時間を通じて発見されるため、ラベルの変更と過去のパフォーマンスは、必ずしも将来のパフォーマンスと一致しない。
過去の作品では、歴史全体のスライス(eg DiverseVUl)やリリース間の個人差(eg Jimenez et al ESEC/FSE 2019)しか考慮されていない。
このようなアプローチは、トレーニング(例えば、履歴全体)において楽観的すぎるか、保守的すぎる(例えば、連続リリース)かのいずれかです。
本稿では,データセットを一連のデータセットに再構成する手法を提案する。
モデルが実際に学習しているのであれば、より多くのデータが利用可能になり、データがより安定するにつれて、時間とともにパフォーマンスが向上するはずだ。
4つの時間ベースのデータセット(BigVulデータセット+VuldeepeckerのNVDプロジェクト)と5つのMLモデル(Code2Vec、CodeBERT、LineVul、ReGVD、Vuldeepecker)による脆弱性検出手法を検証する。
直感的な期待(よりふりかえりの情報、より良いパフォーマンス)とは対照的に、トレンドの結果は、パフォーマンスが長年にわたって一貫して変化していることを示し、ほとんどのモデルが学習していないことを示している。
関連論文リスト
- Hey, That's My Data! Label-Only Dataset Inference in Large Language Models [63.35066172530291]
CatShiftはラベルのみのデータセット推論フレームワークである。
LLMは、新しいデータに晒されたとき、学習した知識を上書きする傾向にある。
論文 参考訳(メタデータ) (2025-06-06T13:02:59Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Automating Dataset Updates Towards Reliable and Timely Evaluation of Large Language Models [81.27391252152199]
大規模言語モデル(LLM)は、さまざまな自然言語ベンチマークで素晴らしいパフォーマンスを実現している。
本稿では、データセットの自動更新と、その有効性に関する体系的な分析を提案する。
1) 類似したサンプルを生成するための戦略を模倣すること,2) 既存のサンプルをさらに拡張する戦略を拡張すること,である。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - PyTAIL: Interactive and Incremental Learning of NLP Models with Human in
the Loop for Online Data [1.576409420083207]
PyTAILは、人間のループアプローチでNLPモデルを積極的に訓練できるピソンライブラリである。
テキスト分類のための既存のソーシャルメディアベンチマークデータセット上でのPyTAILの性能をシミュレートする。
論文 参考訳(メタデータ) (2022-11-24T20:08:15Z) - AnoShift: A Distribution Shift Benchmark for Unsupervised Anomaly
Detection [7.829710051617368]
本稿では,ネットワーク侵入検知のためのトラフィックデータセットである Kyoto-2006+ 上に構築された,時間とともに変化するデータを含む教師なし異常検出ベンチマークを提案する。
まず, 基本機能解析, t-SNE, および最適輸送手法を用いて, 年々の分布距離を計測する。
従来のアプローチからディープラーニングまで,さまざまなモデルでパフォーマンス劣化を検証する。
論文 参考訳(メタデータ) (2022-06-30T17:59:22Z) - Lifelong Learning on Evolving Graphs Under the Constraints of Imbalanced
Classes and New Classes [2.870762512009438]
我々は、生涯グラフ学習における2つの重要な課題、すなわち、新しいクラスを扱うことと、不均衡なクラス分布に取り組むことに取り組む。
ラベルなしデータの量は結果に影響を与えないことが示され、これは生涯学習にとって必須の前提条件である。
本稿では,不均衡なクラス分布を持つ制約の下で,新しいクラスを検出するgDOC法を提案する。
論文 参考訳(メタデータ) (2021-12-20T14:29:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。