論文の概要: LeakageDetector: An Open Source Data Leakage Analysis Tool in Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2503.14723v1
- Date: Tue, 18 Mar 2025 20:53:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:25:16.563599
- Title: LeakageDetector: An Open Source Data Leakage Analysis Tool in Machine Learning Pipelines
- Title(参考訳): LeakageDetector: 機械学習パイプラインにおけるオープンソースのデータ漏洩解析ツール
- Authors: Eman Abdullah AlOmar, Catherine DeMario, Roger Shagawat, Brandon Kreiser,
- Abstract要約: 私たちの研究は、機械学習(ML)エンジニアがモデルでData Leakageのインスタンスを見つけて修正するのを助けることで、より良いコードを書くことを可能にすることを目的としています。
ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。
本稿では,MLコードのData Leakageのインスタンスを識別するPythonプラグインであるLEAKAGEDETECTORを開発し,リークの除去方法について提案する。
- 参考スコア(独自算出の注目度): 3.5453450990441238
- License:
- Abstract: Code quality is of paramount importance in all types of software development settings. Our work seeks to enable Machine Learning (ML) engineers to write better code by helping them find and fix instances of Data Leakage in their models. Data Leakage often results from bad practices in writing ML code. As a result, the model effectively ''memorizes'' the data on which it trains, leading to an overly optimistic estimate of the model performance and an inability to make generalized predictions. ML developers must carefully separate their data into training, evaluation, and test sets to avoid introducing Data Leakage into their code. Training data should be used to train the model, evaluation data should be used to repeatedly confirm a model's accuracy, and test data should be used only once to determine the accuracy of a production-ready model. In this paper, we develop LEAKAGEDETECTOR, a Python plugin for the PyCharm IDE that identifies instances of Data Leakage in ML code and provides suggestions on how to remove the leakage.
- Abstract(参考訳): コード品質は、あらゆるタイプのソフトウェア開発設定において最も重要である。
私たちの研究は、機械学習(ML)エンジニアがモデルでData Leakageのインスタンスを見つけて修正するのを助けることで、より良いコードを書くことを可能にすることを目的としています。
データ漏洩は、しばしばMLコードを書く際の悪いプラクティスから生じます。
その結果、モデルが訓練するデータを効果的に「記憶」し、モデルの性能を過度に予測し、一般化された予測を行うことができない。
ML開発者は、コードにData Leakageを導入するのを避けるために、データをトレーニング、評価、テストセットに慎重に分離する必要がある。
トレーニングデータを使ってモデルをトレーニングし、評価データを使ってモデルの正確性を繰り返し確認し、テストデータは生産可能なモデルの正確性を決定するために一度だけ使用するべきです。
本稿では,MLコードのData Leakageのインスタンスを識別するPyCharm IDE用のPythonプラグインであるLEAKAGEDETECTORを開発し,リークの除去方法について提案する。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Task-Aware Machine Unlearning and Its Application in Load Forecasting [4.00606516946677]
本稿では、すでに訓練済みの予測器に対するデータセットの一部の影響を除去するために特別に設計された機械学習の概念を紹介する。
局所モデルパラメータ変化の感度を影響関数とサンプル再重み付けを用いて評価することにより,性能認識アルゴリズムを提案する。
リアルな負荷データセットを用いて,線形,CNN,Mixerベースの負荷予測器上で,未学習アルゴリズムを検証した。
論文 参考訳(メタデータ) (2023-08-28T08:50:12Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - AI Model Disgorgement: Methods and Choices [127.54319351058167]
本稿では,現代の機械学習システムに適用可能な分類法を紹介する。
学習モデルにおけるデータ「効果の除去」の意味を,スクラッチからリトレーニングする必要のない方法で検討する。
論文 参考訳(メタデータ) (2023-04-07T08:50:18Z) - Zero-Shot Machine Unlearning [6.884272840652062]
現代のプライバシー規制は、市民に製品、サービス、企業によって忘れられる権利を与える。
トレーニングプロセスやトレーニングサンプルに関連するデータは、未学習の目的のためにアクセスできない。
本稿では, (a) 誤り最小化雑音と (b) ゲート付き知識伝達に基づくゼロショットマシンアンラーニングのための2つの新しい解を提案する。
論文 参考訳(メタデータ) (2022-01-14T19:16:09Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - Supervised Machine Learning with Plausible Deniability [1.685485565763117]
機械学習(ML)モデルが、特定のデータセットでトレーニングされたモデルが、トレーニングデータに対してどの程度のプライバシを提供するか、という問題について検討する。
我々は、純粋にランダムなトレーニングデータの集合を取ることができ、そこから、ちょうど$f$のMLモデルを生成する'適切な学習ルール'を定義することができることを示す。
論文 参考訳(メタデータ) (2021-06-08T11:54:51Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Vamsa: Automated Provenance Tracking in Data Science Scripts [17.53546311589593]
本稿では,MLプロビデンス追跡問題を紹介する。
このような情報をPythonのコンテキストで取得する上での課題について論じる。
ユーザコードの変更を必要とせずに,Pythonスクリプトから証明を抽出するモジュールシステムであるVamsaを提案する。
論文 参考訳(メタデータ) (2020-01-07T02:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。