論文の概要: From Data Leak to Secret Misses: The Impact of Data Leakage on Secret Detection Models
- arxiv url: http://arxiv.org/abs/2601.22946v1
- Date: Fri, 30 Jan 2026 13:05:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.455086
- Title: From Data Leak to Secret Misses: The Impact of Data Leakage on Secret Detection Models
- Title(参考訳): データ漏洩からシークレット・ミスへ:シークレット・ディテクスト・モデルにおけるデータ漏洩の影響
- Authors: Farnaz Soltaniani, Mohammad Ghafari,
- Abstract要約: 機械学習モデルは、ソフトウェアセキュリティタスクにますます使われています。
これらのモデルは一般にトレーニングされ、大規模なインターネット由来のデータセットで評価される。
このようなサンプルをトレーニングとテストセットに分割すると、データのリークが発生し、学習の一般化ではなくパターンを記憶することができる。
- 参考スコア(独自算出の注目度): 1.7188280334580195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are increasingly used for software security tasks. These models are commonly trained and evaluated on large Internet-derived datasets, which often contain duplicated or highly similar samples. When such samples are split across training and test sets, data leakage may occur, allowing models to memorize patterns instead of learning to generalize. We investigate duplication in a widely used benchmark dataset of hard coded secrets and show how data leakage can substantially inflate the reported performance of AI-based secret detectors, resulting in a misleading picture of their real-world effectiveness.
- Abstract(参考訳): 機械学習モデルは、ソフトウェアセキュリティタスクにますます使われています。
これらのモデルは、しばしば重複または非常に類似したサンプルを含む大規模なインターネット由来のデータセットで訓練され、評価される。
このようなサンプルをトレーニングとテストセットに分割すると、データのリークが発生し、学習の一般化ではなくパターンを記憶することができる。
ハードコードされたシークレットのベンチマークデータセットの重複を調査し、AIベースのシークレット検出器の報告された性能がデータ漏洩によって大幅に向上することを示す。
関連論文リスト
- Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。
LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。
本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文 参考訳(メタデータ) (2025-05-05T20:42:34Z) - Two Is Better Than One: Aligned Representation Pairs for Anomaly Detection [56.57122939745213]
異常検出は、標準から逸脱するサンプルを特定することに焦点を当てる。
近年の自己教師型手法は, 異常に関する事前知識を用いて, トレーニング中に合成外れ値を生成することによって, それらの表現をうまく学習している。
この制限は、通常のサンプルにおける対称性に関する事前の知識を活用して、異なるコンテキストでデータを観測する、新しいアプローチであるCon$で対処する。
論文 参考訳(メタデータ) (2024-05-29T07:59:06Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - From Zero to Hero: Detecting Leaked Data through Synthetic Data Injection and Model Querying [10.919336198760808]
分類モデルの学習に使用される漏洩データを検出する新しい手法を提案する。
textscLDSSは、クラス分散の局所的なシフトによって特徴付けられる、少量の合成データを所有者のデータセットに注入する。
これにより、モデルクエリ単独で、リークデータに基づいてトレーニングされたモデルの効果的な識別が可能になる。
論文 参考訳(メタデータ) (2023-10-06T10:36:28Z) - On the Universal Adversarial Perturbations for Efficient Data-free
Adversarial Detection [55.73320979733527]
本稿では,UAPに対して正常サンプルと逆サンプルの異なる応答を誘導する,データに依存しない逆検出フレームワークを提案する。
実験結果から,本手法は様々なテキスト分類タスクにおいて,競合検出性能を実現することが示された。
論文 参考訳(メタデータ) (2023-06-27T02:54:07Z) - Unleashing Mask: Explore the Intrinsic Out-of-Distribution Detection
Capability [70.72426887518517]
Out-of-Distribution(OOD)検出は、機械学習モデルを現実世界のアプリケーションにデプロイする際に、セキュアAIの必須の側面である。
本稿では,IDデータを用いた学習モデルのOOD識別能力を復元する新しい手法であるUnleashing Maskを提案する。
本手法では, マスクを用いて記憶した非定型サンプルを抽出し, モデルを微調整するか, 導入したマスクでプルーする。
論文 参考訳(メタデータ) (2023-06-06T14:23:34Z) - DAE : Discriminatory Auto-Encoder for multivariate time-series anomaly
detection in air transportation [68.8204255655161]
識別オートエンコーダ(DAE)と呼ばれる新しい異常検出モデルを提案する。
通常のLSTMベースのオートエンコーダのベースラインを使用するが、いくつかのデコーダがあり、それぞれ特定の飛行フェーズのデータを取得する。
その結果,DAEは精度と検出速度の両方で良好な結果が得られることがわかった。
論文 参考訳(メタデータ) (2021-09-08T14:07:55Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z) - Trade-offs between membership privacy & adversarially robust learning [13.37805637358556]
標準モデルがロバストモデルよりもはるかに過度に適合する設定を特定します。
オーバーフィッティングの度合いは、トレーニングに利用可能なデータの量に依存する。
論文 参考訳(メタデータ) (2020-06-08T14:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。