論文の概要: R+R: Security Vulnerability Dataset Quality Is Critical
- arxiv url: http://arxiv.org/abs/2503.06387v1
- Date: Sun, 09 Mar 2025 01:49:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:52:38.876754
- Title: R+R: Security Vulnerability Dataset Quality Is Critical
- Title(参考訳): R+R: セキュリティ脆弱性データセットの品質が重要
- Authors: Anurag Swarnim Yadav, Joseph N. Wilson,
- Abstract要約: 多くの研究では、高い複製率、疑わしいラベルの精度、不完全なサンプルに悩まされているデータセットを使用している。
その結果, 試料の56%が不正なラベルであり, 44%が不完全であり, 31%のみが正確で完全であった。
我々は,大規模な重複バグフィックスコーパスを用いた転送学習を用いて,高品質な事前学習データが大きいと,これらのモデルの性能が向上することを示す。
- 参考スコア(独自算出の注目度): 0.6906005491572401
- License:
- Abstract: Large Language Models (LLMs) are of great interest in vulnerability detection and repair. The effectiveness of these models hinges on the quality of the datasets used for both training and evaluation. Our investigation reveals that a number of studies featured in prominent software engineering conferences have employed datasets that are plagued by high duplication rates, questionable label accuracy, and incomplete samples. Using these datasets for experimentation will yield incorrect results that are significantly different from actual expected behavior. For example, the state-of-the-art VulRepair Model, which is reported to have 44% accuracy, on average yielded 9% accuracy when test-set duplicates were removed from its training set and 13% accuracy when training-set duplicates were removed from its test set. In an effort to tackle these data quality concerns, we have retrained models from several papers without duplicates and conducted an accuracy assessment of labels for the top ten most hazardous Common Weakness Enumerations (CWEs). Our findings indicate that 56% of the samples had incorrect labels and 44% comprised incomplete samples--only 31% were both accurate and complete. Finally, we employ transfer learning using a large deduplicated bugfix corpus to show that these models can exhibit better performance if given larger amounts of high-quality pre-training data, leading us to conclude that while previous studies have over-estimated performance due to poor dataset quality, this does not demonstrate that better performance is not possible.
- Abstract(参考訳): 大きな言語モデル(LLM)は脆弱性の検出と修復に大きな関心を持っている。
これらのモデルの有効性は、トレーニングと評価の両方に使用されるデータセットの品質に依存する。
我々の調査は、著名なソフトウェアエンジニアリングカンファレンスで取り上げられた多くの研究が、高い複製率、疑わしいラベルの精度、不完全なサンプルに悩まされているデータセットを使用していることを明らかにしている。
これらのデータセットを実験に使用すると、実際の期待される行動と大きく異なる誤った結果が得られる。
例えば、最先端のVulRepairモデルでは、トレーニングセットからテストセット重複を取り除くと平均で9%の精度が得られ、テストセットからトレーニングセット重複を取り除くと13%の精度が得られた。
これらのデータ品質問題に対処するために、重複のない複数の論文からモデルを再訓練し、最も有害なCWE(Common Weakness Enumerations)のトップ10のラベルの精度評価を行った。
その結果, 試料の56%が不正なラベルであり, 44%が不完全であり, 31%のみが正確で完全であった。
最後に,大規模な重複バグフィックスコーパスを用いたトランスファーラーニングを用いて,高レベルの事前学習データが与えられた場合,これらのモデルの方が優れた性能を示すことを示す。
関連論文リスト
- Assessing the Impact of the Quality of Textual Data on Feature Representation and Machine Learning Models [0.03724049002462992]
この研究は、高品質MIMIC-III公立病院データセットと、オーストラリアの高齢者介護施設の低品質プライベートデータセットの2つの医療データセットを分析した。
ミキサールは63%の進捗ノートで誤りを正しく検出し、17%は医療用語によって1つのトークンが誤分類された。
論文 参考訳(メタデータ) (2025-02-12T00:27:49Z) - Is Training Data Quality or Quantity More Impactful to Small Language Model Performance? [0.0]
本研究では,学習データ品質と量の違いが小言語モデル(SLM)の性能に及ぼす影響について検討する。
大規模モデルのトレーニングは、組織、個人、一般の人々に対して禁止される、重大な財政的および計算的負担を課す。
論文 参考訳(メタデータ) (2024-11-24T12:51:50Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Text Quality-Based Pruning for Efficient Training of Language Models [66.66259229732121]
本研究では,大容量NLPデータセットのテキスト品質を数値評価する手法を提案する。
テキスト品質指標を提案することにより、低品質テキストインスタンスを識別・排除する枠組みを確立する。
複数のモデルやデータセットに対する実験結果から,このアプローチの有効性が示された。
論文 参考訳(メタデータ) (2024-04-26T18:01:25Z) - Learning with Imbalanced Noisy Data by Preventing Bias in Sample
Selection [82.43311784594384]
実世界のデータセットには、ノイズの多いラベルだけでなく、クラス不均衡も含まれている。
不均衡なデータセットにおけるノイズラベルに対処する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-02-17T10:34:53Z) - Comprehensive Benchmarking of Entropy and Margin Based Scoring Metrics
for Data Selection [0.8192907805418583]
我々は,「有用性」や「難易度」について,将来的なトレーニング事例を評価する方法を提案する。
主にエントロピーとError L2-Norm(EL2N)のスコアを実験した。
次に、これらの非同定データセットを用いてトレーニングデータ拡張実験を行い、スコアベースの選択が、ランダム選択のベースライン技術と比較して、意味的誤り率2%、ドメイン分類エラー率4%-7%の減少をもたらすことを示した。
論文 参考訳(メタデータ) (2023-11-27T20:33:54Z) - Boosting Facial Expression Recognition by A Semi-Supervised Progressive
Teacher [54.50747989860957]
本稿では,信頼度の高いFERデータセットと大規模未ラベル表現画像を有効訓練に用いるための半教師付き学習アルゴリズム,Progressive Teacher (PT)を提案する。
RAF-DB と FERPlus を用いた実験により,RAF-DB で89.57% の精度で最先端の性能を実現する手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-05-28T07:47:53Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - Identifying Statistical Bias in Dataset Replication [102.92137353938388]
モデルが(11-14%) の精度低下を示すImageNetデータセットの再現について検討した。
同定された統計バイアスを補正した後、推定3.6%のpm 1.5%の当初の11.7%のpm 1.0%の精度低下しか記録されていない。
論文 参考訳(メタデータ) (2020-05-19T17:48:32Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z) - On the Role of Dataset Quality and Heterogeneity in Model Confidence [27.657631193015252]
安全クリティカルなアプリケーションは、正確で校正された確率を出力する機械学習モデルを必要とする。
未分類のディープネットワークは、過度に信頼された予測をすることが知られている。
本研究では,データセットサイズとラベルノイズがモデルの信頼性に与える影響について検討した。
論文 参考訳(メタデータ) (2020-02-23T05:13:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。