論文の概要: Impact of Data Snooping on Deep Learning Models for Locating Vulnerabilities in Lifted Code
- arxiv url: http://arxiv.org/abs/2412.02048v1
- Date: Tue, 03 Dec 2024 00:08:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:51:59.001100
- Title: Impact of Data Snooping on Deep Learning Models for Locating Vulnerabilities in Lifted Code
- Title(参考訳): リフテッドコードにおけるデータスヌーピングが脆弱性位置の深層学習モデルに及ぼす影響
- Authors: Gary A. McCully, John D. Hastings, Shengjie Xu,
- Abstract要約: この研究は、モデルがデータセットでトレーニングされているとき、モデルのパフォーマンスがどのように影響を受けるかに焦点を当てている。
その結果,データスヌーピングの導入はモデル性能を著しく変化させることはなかった。
さらに、この結果は、GPT-2埋め込みでトレーニングされたモデルが、他の埋め込みでトレーニングされたニューラルネットワークよりも一貫して優れていたという過去の研究の結論を補強する。
- 参考スコア(独自算出の注目度): 5.4141465747474475
- License:
- Abstract: This study examines the impact of data snooping on neural networks for vulnerability detection in lifted code, building on previous research which used word2vec, and unidirectional and bidirectional transformer-based embeddings. The research specifically focuses on how model performance is affected when embedding models are trained on datasets, including samples also used for neural network training and validation. The results show that introducing data snooping did not significantly alter model performance, suggesting that data snooping had a minimal impact or that samples randomly dropped as part of the methodology contained hidden features critical to achieving optimal performance. In addition, the findings reinforce the conclusions of previous research, which found that models trained with GPT-2 embeddings consistently outperformed neural networks trained with other embeddings. The fact that this holds even when data snooping is introduced into the embedding model indicates GPT-2's robustness in representing complex code features, even under less-than-ideal conditions.
- Abstract(参考訳): 本研究では、ワード2ベックを用いた以前の研究と一方向および双方向のトランスフォーマーベースの埋め込みに基づくニューラルネットワークによる脆弱性検出に対するデータスヌーピングの影響について検討する。
この研究は、ニューラルネットワークのトレーニングや検証にも使用されるサンプルを含む、データセットに埋め込みモデルをトレーニングする際のモデルパフォーマンスへの影響について、特に焦点を当てている。
その結果,データスヌーピングの導入によってモデル性能が著しく変化することはなく,データスヌーピングが最小限の影響を及ぼしたり,手法の一部としてサンプルをランダムに落としたりすることが示唆された。
さらに、この結果は、GPT-2埋め込みでトレーニングされたモデルが、他の埋め込みでトレーニングされたニューラルネットワークよりも一貫して優れていたという過去の研究の結論をさらに補強する。
埋め込みモデルにデータスヌーピングを導入しても、これは複雑なコードの特徴を表現できるGPT-2の堅牢性を示している。
関連論文リスト
- PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。
近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。
我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文 参考訳(メタデータ) (2024-06-09T07:29:55Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - Towards a robust and reliable deep learning approach for detection of
compact binary mergers in gravitational wave data [0.0]
我々は、段階的に深層学習モデルを開発し、その堅牢性と信頼性の向上に取り組みます。
我々はGAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。
絶対ロバスト性は事実上達成できないが、そのような訓練によって得られるいくつかの根本的な改善を実証する。
論文 参考訳(メタデータ) (2023-06-20T18:00:05Z) - Phantom Embeddings: Using Embedding Space for Model Regularization in
Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。
複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。
情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-14T17:15:54Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Similarity Embedding Networks for Robust Human Activity Recognition [19.162857787656247]
我々は、入力センサ信号を、慎重に設計された畳み込み層とLSTM層を通して実ベクトルにマッピングする類似性埋め込みニューラルネットワークを設計する。
埋め込みネットワークは、ペアワイズな類似性損失でトレーニングされ、埋め込み実空間内の同じクラスからのサンプルのクラスタリングを奨励する。
2つの公開データセットに基づく広範囲な評価により、提案された類似性埋め込みネットワークは、HAR分類タスクにおける最先端のディープモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2021-05-31T11:52:32Z) - MLDS: A Dataset for Weight-Space Analysis of Neural Networks [0.0]
MLDSは、注意深く制御されたパラメータを持つ何千ものトレーニングニューラルネットワークからなる新しいデータセットである。
このデータセットは、モデル-to-modelとモデル-to-training-data関係に関する新たな洞察を可能にする。
論文 参考訳(メタデータ) (2021-04-21T14:24:26Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Statistical model-based evaluation of neural networks [74.10854783437351]
ニューラルネットワーク(NN)の評価のための実験装置を開発する。
このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。
これにより、トレーニングデータサイズ、データ次元、データ幾何学、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストできます。
論文 参考訳(メタデータ) (2020-11-18T00:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。