Fugu-MT 論文翻訳(概要): Impact of Data Snooping on Deep Learning Models for Locating Vulnerabilities in Lifted Code

論文の概要: Impact of Data Snooping on Deep Learning Models for Locating Vulnerabilities in Lifted Code

arxiv url: http://arxiv.org/abs/2412.02048v1
Date: Tue, 03 Dec 2024 00:08:01 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-04 21:11:22.812359
Title: Impact of Data Snooping on Deep Learning Models for Locating Vulnerabilities in Lifted Code
Title（参考訳）: リフテッドコードにおけるデータスヌーピングが脆弱性位置の深層学習モデルに及ぼす影響
Authors: Gary A. McCully, John D. Hastings, Shengjie Xu,
Abstract要約: この研究は、モデルがデータセットでトレーニングされているとき、モデルのパフォーマンスがどのように影響を受けるかに焦点を当てている。その結果,データスヌーピングの導入はモデル性能を著しく変化させることはなかった。さらに、この結果は、GPT-2埋め込みでトレーニングされたモデルが、他の埋め込みでトレーニングされたニューラルネットワークよりも一貫して優れていたという過去の研究の結論を補強する。
参考スコア（独自算出の注目度）: 5.4141465747474475
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This study examines the impact of data snooping on neural networks for vulnerability detection in lifted code, building on previous research which used word2vec, and unidirectional and bidirectional transformer-based embeddings. The research specifically focuses on how model performance is affected when embedding models are trained on datasets, including samples also used for neural network training and validation. The results show that introducing data snooping did not significantly alter model performance, suggesting that data snooping had a minimal impact or that samples randomly dropped as part of the methodology contained hidden features critical to achieving optimal performance. In addition, the findings reinforce the conclusions of previous research, which found that models trained with GPT-2 embeddings consistently outperformed neural networks trained with other embeddings. The fact that this holds even when data snooping is introduced into the embedding model indicates GPT-2's robustness in representing complex code features, even under less-than-ideal conditions.
Abstract（参考訳）: 本研究では、ワード2ベックを用いた以前の研究と一方向および双方向のトランスフォーマーベースの埋め込みに基づくニューラルネットワークによる脆弱性検出に対するデータスヌーピングの影響について検討する。この研究は、ニューラルネットワークのトレーニングや検証にも使用されるサンプルを含む、データセットに埋め込みモデルをトレーニングする際のモデルパフォーマンスへの影響について、特に焦点を当てている。その結果,データスヌーピングの導入によってモデル性能が著しく変化することはなく,データスヌーピングが最小限の影響を及ぼしたり,手法の一部としてサンプルをランダムに落としたりすることが示唆された。さらに、この結果は、GPT-2埋め込みでトレーニングされたモデルが、他の埋め込みでトレーニングされたニューラルネットワークよりも一貫して優れていたという過去の研究の結論をさらに補強する。埋め込みモデルにデータスヌーピングを導入しても、これは複雑なコードの特徴を表現できるGPT-2の堅牢性を示している。

関連論文リスト

Learning Beyond the Gaussian Data: Learning Dynamics of Neural Networks on an Expressive and Cumulant-Controllable Data Model [7.238889207632064]
本研究では、モーメント制御可能な非ガウスデータモデルを用いて、ニューラルネットワーク(NN)の学習力学に対するデータの高次統計の影響について検討する。データモデルから生成されたサンプルを用いて,2層NNを用いてオンライン学習実験を制御した。
論文参考訳（メタデータ） (2026-02-02T14:29:33Z)
Augmented data and neural networks for robust epidemic forecasting: application to COVID-19 in Italy [0.2676349883103403]
本稿では,ニューラルネットワークのトレーニングフェーズの改善を目的としたデータ拡張戦略を提案する。提案手法は,不確実性の組み合わさった適切な構成モデルによる合成データの生成に依存している。その結果、これらの拡張データセットに基づいてトレーニングされたニューラルネットワークは、予測性能を著しく改善していることがわかった。
論文参考訳（メタデータ） (2025-10-10T09:35:38Z)
Unidentified and Confounded? Understanding Two-Tower Models for Unbiased Learning to Rank [50.9530591265324]
良好な性能のプロダクションシステムによって収集されたクリックで2towerモデルをトレーニングすると、ランキング性能が低下する。理論的には、2towerモデルの識別可能性条件を解析し、クリックからモデルパラメータを復元するために、文書の入れ替わりや重複する特徴分布が必要であることを示す。また,ログポリシが2towerモデルに与える影響についても検討し,モデルがユーザの動作を完全に捉えている場合,バイアスが発生しないことを見出した。
論文参考訳（メタデータ） (2025-06-25T14:47:43Z)
Model-agnostic Mitigation Strategies of Data Imbalance for Regression [0.0]
データ不均衡は、回帰タスクにおいて広範囲にわたる課題として持続し、モデルパフォーマンスのバイアスを導入し、予測信頼性を損なう。既存のサンプリング手法を構築・改善する高度な緩和手法を提案する。モデルのアンサンブル(不均衡緩和で訓練されたモデルと、非バランスで訓練されたモデル)の構築は、これらの負の効果を著しく減少させることを実証する。
論文参考訳（メタデータ） (2025-06-02T09:46:08Z)
PairCFR: Enhancing Model Training on Paired Counterfactually Augmented Data through Contrastive Learning [49.60634126342945]
Counterfactually Augmented Data (CAD)は、既存のデータサンプルのラベルを他のクラスに戻すのに、最小限かつ十分な修正を適用することで、新しいデータサンプルを作成する。近年の研究では、CADを用いたトレーニングが、他の重要な文脈情報を無視しながら、モデルが修正機能に過度にフォーカスする可能性があることが示されている。我々は、対実的手がかりの学習に加えて、グローバルな特徴アライメントを促進するために、対照的な学習を採用する。
論文参考訳（メタデータ） (2024-06-09T07:29:55Z)
DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文参考訳（メタデータ） (2024-03-20T04:58:03Z)
Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文参考訳（メタデータ） (2023-12-03T13:50:24Z)
From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。 textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文参考訳（メタデータ） (2023-10-06T10:36:28Z)
Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。モデル圧縮は視覚的プロンプトベース転送の性能に有害である。しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文参考訳（メタデータ） (2023-08-29T01:47:49Z)
Towards a robust and reliable deep learning approach for detection of compact binary mergers in gravitational wave data [0.0]
我々は、段階的に深層学習モデルを開発し、その堅牢性と信頼性の向上に取り組みます。我々はGAN(Generative Adversarial Network)を含む新しいフレームワークでモデルを再訓練する。絶対ロバスト性は事実上達成できないが、そのような訓練によって得られるいくつかの根本的な改善を実証する。
論文参考訳（メタデータ） (2023-06-20T18:00:05Z)
Phantom Embeddings: Using Embedding Space for Model Regularization in Deep Neural Networks [12.293294756969477]
機械学習モデルの強みは、データから複雑な関数近似を学ぶ能力に起因している。複雑なモデルはトレーニングデータを記憶する傾向があり、結果としてテストデータの正規化性能が低下する。情報豊富な潜伏埋め込みと高いクラス内相関を利用してモデルを正規化するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-14T17:15:54Z)
Towards Open-World Feature Extrapolation: An Inductive Graph Learning Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文参考訳（メタデータ） (2021-10-09T09:02:45Z)
Similarity Embedding Networks for Robust Human Activity Recognition [19.162857787656247]
我々は、入力センサ信号を、慎重に設計された畳み込み層とLSTM層を通して実ベクトルにマッピングする類似性埋め込みニューラルネットワークを設計する。埋め込みネットワークは、ペアワイズな類似性損失でトレーニングされ、埋め込み実空間内の同じクラスからのサンプルのクラスタリングを奨励する。 2つの公開データセットに基づく広範囲な評価により、提案された類似性埋め込みネットワークは、HAR分類タスクにおける最先端のディープモデルを大幅に上回っていることが示された。
論文参考訳（メタデータ） (2021-05-31T11:52:32Z)
MLDS: A Dataset for Weight-Space Analysis of Neural Networks [0.0]
MLDSは、注意深く制御されたパラメータを持つ何千ものトレーニングニューラルネットワークからなる新しいデータセットである。このデータセットは、モデル-to-modelとモデル-to-training-data関係に関する新たな洞察を可能にする。
論文参考訳（メタデータ） (2021-04-21T14:24:26Z)
Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文参考訳（メタデータ） (2021-02-09T20:28:35Z)
Statistical model-based evaluation of neural networks [74.10854783437351]
ニューラルネットワーク(NN)の評価のための実験装置を開発する。このセットアップは、NNs vis-a-vis minimum-mean-square-error (MMSE)パフォーマンス境界のベンチマークに役立つ。これにより、トレーニングデータサイズ、データ次元、データ幾何学、ノイズ、トレーニング条件とテスト条件のミスマッチの影響をテストできます。
論文参考訳（メタデータ） (2020-11-18T00:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。