論文の概要: Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning
- arxiv url: http://arxiv.org/abs/2401.13796v1
- Date: Wed, 24 Jan 2024 20:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:22:01.888522
- Title: Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning
- Title(参考訳): ボタンを押しないで!
機械学習と転送学習におけるデータ漏洩リスクの検討
- Authors: Andrea Apicella, Francesco Isgr\`o, Roberto Prevete
- Abstract要約: 本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) has revolutionized various domains, offering predictive
capabilities in several areas. However, with the increasing accessibility of ML
tools, many practitioners, lacking deep ML expertise, adopt a "push the button"
approach, utilizing user-friendly interfaces without a thorough understanding
of underlying algorithms. While this approach provides convenience, it raises
concerns about the reliability of outcomes, leading to challenges such as
incorrect performance evaluation. This paper addresses a critical issue in ML,
known as data leakage, where unintended information contaminates the training
data, impacting model performance evaluation. Users, due to a lack of
understanding, may inadvertently overlook crucial steps, leading to optimistic
performance estimates that may not hold in real-world scenarios. The
discrepancy between evaluated and actual performance on new data is a
significant concern. In particular, this paper categorizes data leakage in ML,
discussing how certain conditions can propagate through the ML workflow.
Furthermore, it explores the connection between data leakage and the specific
task being addressed, investigates its occurrence in Transfer Learning, and
compares standard inductive ML with transductive ML frameworks. The conclusion
summarizes key findings, emphasizing the importance of addressing data leakage
for robust and reliable ML applications.
- Abstract(参考訳): 機械学習(ML)はさまざまな領域に革命をもたらし、いくつかの領域で予測機能を提供する。
しかし、MLツールのアクセシビリティが向上するにつれて、多くの実践者は、MLの深い専門知識を欠いた"プッシュ・ザ・ボタン"アプローチを採用し、基礎となるアルゴリズムを十分に理解することなく、ユーザフレンドリなインターフェースを活用している。
このアプローチは利便性を提供するが、結果の信頼性に関する懸念を提起し、不正なパフォーマンス評価などの課題につながる。
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を及ぼす、データ漏洩として知られるMLにおける重要な問題に対処する。
ユーザの理解が不足しているため、不注意に重要なステップを見落とし、現実のシナリオでは持たない楽観的なパフォーマンス見積に繋がる可能性がある。
新しいデータに対する評価と実際のパフォーマンスの相違は重要な懸念事項である。
特に、MLにおけるデータ漏洩を分類し、特定の条件がMLワークフローを通してどのように伝播するかについて議論する。
さらに,データ漏洩と対処対象の特定タスクとの関係を調査し,転送学習におけるその発生を調査し,標準インダクティブmlとトランスダクティブmlフレームワークを比較した。
結論は、堅牢で信頼性の高いMLアプリケーションにおいて、データの漏洩に対処することの重要性を強調しながら、重要な結果をまとめている。
関連論文リスト
- To Repeat or Not To Repeat: Insights from Scaling LLM under Token-Crisis [50.31589712761807]
大規模言語モデル(LLM)は、事前トレーニング中にトークンに悩まされていることで知られており、Web上の高品質なテキストデータは、LSMのスケーリング制限に近づいている。
本研究では,事前学習データの再学習の結果について検討し,モデルが過度に適合する可能性が示唆された。
第2に, マルチエポック劣化の原因となる要因について検討し, データセットのサイズ, モデルパラメータ, トレーニング目標など, 重要な要因について検討した。
論文 参考訳(メタデータ) (2023-05-22T17:02:15Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets [1.1081836812143175]
機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
論文 参考訳(メタデータ) (2023-01-23T08:56:11Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Rethinking Streaming Machine Learning Evaluation [9.69979862225396]
ストリーミングML問題の性質が,新たな現実的課題(ラベルの到着遅延など)を導入し,ストリーミングMLのパフォーマンスを評価するための追加メトリクスを推奨する方法について論じる。
論文 参考訳(メタデータ) (2022-05-23T17:21:43Z) - HardVis: Visual Analytics to Handle Instance Hardness Using
Undersampling and Oversampling Techniques [74.09665819220567]
HardVisは、主に不均衡な分類シナリオでインスタンスの硬さを処理するために設計されたビジュアル分析システムである。
ユーザはさまざまな視点からデータのサブセットを探索して、これらのパラメータをすべて決定できる。
HardVisの有効性と有効性は仮説的利用シナリオとユースケースで実証される。
論文 参考訳(メタデータ) (2022-03-29T17:04:16Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z) - Insights into Performance Fitness and Error Metrics for Machine Learning [1.827510863075184]
機械学習(ML)は、高いレベルの認知を達成し、人間のような分析を行うための訓練機械の分野である。
本稿では、回帰アルゴリズムや分類アルゴリズムにおいて、最もよく使われている性能適合度と誤差の測定値について検討する。
論文 参考訳(メタデータ) (2020-05-17T22:59:04Z) - Mind the Gap: On Bridging the Semantic Gap between Machine Learning and
Information Security [3.9629825964453986]
機械学習がマルウェアの振る舞いを学習し、新しいマルウェアサンプルを検出し、情報セキュリティを大幅に改善する可能性にもかかわらず、デプロイされたシステムにおいて、高影響のML技術はほとんどない。
我々は、InfoSecのハイインパクト化におけるMLの失敗は、2つのコミュニティ間の断絶に起因していると仮定する。
具体的には、MLが使用する現在のデータセットと表現は、実行可能体の振る舞いを学ぶのに適していない。
論文 参考訳(メタデータ) (2020-05-04T19:19:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。