論文の概要: LeakageDetector 2.0: Analyzing Data Leakage in Jupyter-Driven Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2509.15971v1
- Date: Fri, 19 Sep 2025 13:27:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.183005
- Title: LeakageDetector 2.0: Analyzing Data Leakage in Jupyter-Driven Machine Learning Pipelines
- Title(参考訳): LeakageDetector 2.0:Jupyter駆動機械学習パイプラインにおけるデータ漏洩の分析
- Authors: Owen Truong, Terrence Zhang, Arnav Marchareddy, Ryan Lee, Jeffery Busold, Michael Socas, Eman Abdullah AlOmar,
- Abstract要約: この研究は、機械学習(ML)エンジニアが、モデル内のデータ漏洩問題を識別し、修正することで、コードを強化するのを支援することを目的としている。
データ漏洩は、データサイエンスモデルを作成する際に、テストデータセットからの情報がトレーニングデータに不注意に含まれている場合に発生する。
- 参考スコア(独自算出の注目度): 2.61396737784983
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In software development environments, code quality is crucial. This study aims to assist Machine Learning (ML) engineers in enhancing their code by identifying and correcting Data Leakage issues within their models. Data Leakage occurs when information from the test dataset is inadvertently included in the training data when preparing a data science model, resulting in misleading performance evaluations. ML developers must carefully separate their data into training, evaluation, and test sets to avoid introducing Data Leakage into their code. In this paper, we develop a new Visual Studio Code (VS Code) extension, called LeakageDetector, that detects Data Leakage, mainly Overlap, Preprocessing and Multi-test leakage, from Jupyter Notebook files. Beyond detection, we included two correction mechanisms: a conventional approach, known as a quick fix, which manually fixes the leakage, and an LLM-driven approach that guides ML developers toward best practices for building ML pipelines.
- Abstract(参考訳): ソフトウェア開発環境では、コード品質が重要です。
この研究は、機械学習(ML)エンジニアが、モデル内のデータ漏洩問題を識別し、修正することで、コードを強化するのを支援することを目的としている。
データ漏洩は、データサイエンスモデルを作成する際に、テストデータセットからの情報がトレーニングデータに不注意に含まれて、誤ったパフォーマンス評価が発生します。
ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。
本稿では、Jupyter Notebookファイルから、主にオーバーラップ、プリプロセッシング、マルチテストリークを含むデータ漏洩を検出する、LeakageDetectorと呼ばれる新しいVisual Studio Code(VS Code)エクステンションを開発する。
検出以外にも、手動でリークを修正するクイックフィックスとして知られる従来のアプローチと、ML開発者をMLパイプライン構築のベストプラクティスへと導くLLM駆動のアプローチの2つの修正メカニズムが含まれていました。
関連論文リスト
- LeakageDetector: An Open Source Data Leakage Analysis Tool in Machine Learning Pipelines [3.5453450990441238]
私たちの研究は、機械学習(ML)エンジニアがモデルでData Leakageのインスタンスを見つけて修正するのを助けることで、より良いコードを書くことを可能にすることを目的としています。
ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。
本稿では,MLコードのData Leakageのインスタンスを識別するPythonプラグインであるLEAKAGEDETECTORを開発し,リークの除去方法について提案する。
論文 参考訳(メタデータ) (2025-03-18T20:53:44Z) - Information-Guided Identification of Training Data Imprint in (Proprietary) Large Language Models [52.439289085318634]
情報誘導プローブを用いて,プロプライエタリな大規模言語モデル (LLM) で知られているトレーニングデータを識別する方法を示す。
我々の研究は、重要な観察の上に成り立っている: 高次数テキストパスは、暗記プローブにとって良い検索材料である。
論文 参考訳(メタデータ) (2025-03-15T10:19:15Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - A Little Leak Will Sink a Great Ship: Survey of Transparency for Large Language Models from Start to Finish [47.3916421056009]
大規模言語モデル(LLM)は、大規模なウェブクローリングコーパスで訓練されている。
LLMは、トレーニングセットでそのようなデータが少ないにもかかわらず、ほとんどの場合、漏洩した情報を生成する。
自己検出法は既存の検出法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-24T13:21:58Z) - Alpaca against Vicuna: Using LLMs to Uncover Memorization of LLMs [61.04246774006429]
本稿では,攻撃者によるLSMエージェントを用いたブラックボックスプロンプト最適化手法を提案する。
ベースラインプレフィックス・サフィックス測定と比較すると,命令ベースのプロンプトは,トレーニングデータと23.7%のオーバラップで出力を生成する。
以上の結果から,命令調整モデルでは,ベースモデルと同等に事前学習データを公開することが可能であり,他のLSMが提案する命令を用いることで,新たな自動攻撃の道を開くことが可能であることが示唆された。
論文 参考訳(メタデータ) (2024-03-05T19:32:01Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。