論文の概要: Which Leakage Types Matter?
- arxiv url: http://arxiv.org/abs/2604.04199v1
- Date: Sun, 05 Apr 2026 17:47:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:18.978446
- Title: Which Leakage Types Matter?
- Title(参考訳): どの漏れの種類が重要か?
- Authors: Simon Roth,
- Abstract要約: 2,047件のデータセットにまたがる28件の対物実験と129件の時間的データセットのバウンダリ実験。
クラスI(推定 – フルデータにスケーラを適合させる)は無視できる。
クラスII(選抜、摘み取り、種桜の摘み取り)は極めて重要である。
d_z = 0.37(ナイーブベイズ)から1.11(決定木)
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Twenty-eight within-subject counterfactual experiments across 2,047 tabular datasets, plus a boundary experiment on 129 temporal datasets, measuring the severity of four data leakage classes in machine learning. Class I (estimation - fitting scalers on full data) is negligible: all nine conditions produce $|Δ\text{AUC}| \leq 0.005$. Class II (selection - peeking, seed cherry-picking) is substantial: ~90% of the measured effect is noise exploitation that inflates reported scores. Class III (memorization) scales with model capacity: d_z = 0.37 (Naive Bayes) to 1.11 (Decision Tree). Class IV (boundary) is invisible under random CV. The textbook emphasis is inverted: normalization leakage matters least; selection leakage at practical dataset sizes matters most.
- Abstract(参考訳): 2,047の表付きデータセットを対象とする28の対物実験に加えて、129の時間的データセットのバウンダリ実験を行い、機械学習における4つのデータ漏洩クラスの重症度を測定した。
クラス I (推定 - フルデータにスケーラを適合させる) は無視できる: 9つの条件はすべて$|Δ\text{AUC}| \leq 0.005$を生成する。
クラスII(選抜、摘み取り、種桜の摘み取り)は、測定された効果の90%は、報告されたスコアを膨らませるノイズエクスプロイトである。
d_z = 0.37 (Naive Bayes) から 1.11 (Decision Tree) にスケールする。
クラスIV(境界)はランダムCVでは見えない。
正規化リークが最も重要であり、実用的なデータセットサイズでの選択リークが最も重要である。
関連論文リスト
- DataDecide: How to Predict Best Pretraining Data with Small Experiments [67.95896457895404]
私たちはDataDecideのモデル、データ、評価を公開しています。
最大100Bトークン,最大1Bパラメータのモデルサイズ,および3つのランダムシードを用いて,25コーパスにわたる事前学習実験を行った。
論文 参考訳(メタデータ) (2025-04-15T17:02:15Z) - Adjusting Logit in Gaussian Form for Long-Tailed Visual Recognition [37.62659619941791]
特徴レベルの観点から、長い尾の視覚認識の問題について検討する。
2つの新しいロジット調整法が提案され,計算オーバーヘッドの緩やかなモデル性能が向上した。
ベンチマークデータセットを用いて行った実験は,提案手法の最先端手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-18T02:06:06Z) - A semi-supervised Teacher-Student framework for surgical tool detection
and localization [2.41710192205034]
外科的ツール検出のパラダイムにおいて,半教師付き学習(SSL)フレームワークを導入する。
提案手法では,教師-学生共同学習を初期化するラベル付きデータを用いたモデルを訓練する。
m2cai16-tool-locations データセットの結果は、異なる教師付きデータ設定に対するアプローチの優位性を示している。
論文 参考訳(メタデータ) (2022-08-21T17:21:31Z) - Label-Noise Learning with Intrinsically Long-Tailed Data [65.41318436799993]
本稿では,本質的な長期データを用いたラベルノイズ学習のための学習フレームワークを提案する。
具体的には, 2段階の2次元試料選択法(TABASCO)を提案する。
論文 参考訳(メタデータ) (2022-08-21T07:47:05Z) - Perturbation Learning Based Anomaly Detection [19.41730292017383]
主な考え方は、通常のデータを摂動するために小さな摂動を学習し、正規データと摂動データを2つの異なるクラスに分類するために分類器を学ぶことである。
摂動は可能な限り小さくなければならないが、分類器は摂動データから摂動データを認識することができる。
異常検出の最先端技術と比較すると,決定境界の形状に関する仮定は不要である。
論文 参考訳(メタデータ) (2022-06-06T16:01:01Z) - ADT-SSL: Adaptive Dual-Threshold for Semi-Supervised Learning [68.53717108812297]
Semi-Supervised Learning (SSL)は、ラベル付きデータとラベルなしデータを併用してモデルをトレーニングすることで、高度な分類タスクを実現している。
本稿では,半教師付き学習(ADT-SSL)のための適応的デュアル閾値法を提案する。
実験の結果,提案したADT-SSLは最先端の分類精度を実現することがわかった。
論文 参考訳(メタデータ) (2022-05-21T11:52:08Z) - Error Scaling Laws for Kernel Classification under Source and Capacity
Conditions [26.558090928198187]
標準のソースとキャパシティ条件を満たす重要なデータセットのクラスを考察する。
ソースとキャパシティ係数の関数として誤分類(予測)誤差の減衰率を導出する。
この結果は、カーネル分類におけるスケーリング法則の指数の明示的な予測と見なすことができる。
論文 参考訳(メタデータ) (2022-01-29T20:39:58Z) - SLA$^2$P: Self-supervised Anomaly Detection with Adversarial
Perturbation [77.71161225100927]
異常検出は、機械学習の基本的な問題であるが、難しい問題である。
本稿では,非教師付き異常検出のための新しい強力なフレームワークであるSLA$2$Pを提案する。
論文 参考訳(メタデータ) (2021-11-25T03:53:43Z) - Machine learning models for prediction of droplet collision outcomes [8.223798883838331]
液滴衝突の結果を予測することは、広く研究されている現象である。
現在の物理学に基づく結果を予測するモデルは不十分である。
ML設定では、この問題は4つのクラスを持つ分類問題に直接変換される。
論文 参考訳(メタデータ) (2021-10-01T01:53:09Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。