論文の概要: Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning
- arxiv url: http://arxiv.org/abs/2401.13796v1
- Date: Wed, 24 Jan 2024 20:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 16:22:01.888522
- Title: Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning
- Title(参考訳): ボタンを押しないで!
機械学習と転送学習におけるデータ漏洩リスクの検討
- Authors: Andrea Apicella, Francesco Isgr\`o, Roberto Prevete
- Abstract要約: 本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning (ML) has revolutionized various domains, offering predictive
capabilities in several areas. However, with the increasing accessibility of ML
tools, many practitioners, lacking deep ML expertise, adopt a "push the button"
approach, utilizing user-friendly interfaces without a thorough understanding
of underlying algorithms. While this approach provides convenience, it raises
concerns about the reliability of outcomes, leading to challenges such as
incorrect performance evaluation. This paper addresses a critical issue in ML,
known as data leakage, where unintended information contaminates the training
data, impacting model performance evaluation. Users, due to a lack of
understanding, may inadvertently overlook crucial steps, leading to optimistic
performance estimates that may not hold in real-world scenarios. The
discrepancy between evaluated and actual performance on new data is a
significant concern. In particular, this paper categorizes data leakage in ML,
discussing how certain conditions can propagate through the ML workflow.
Furthermore, it explores the connection between data leakage and the specific
task being addressed, investigates its occurrence in Transfer Learning, and
compares standard inductive ML with transductive ML frameworks. The conclusion
summarizes key findings, emphasizing the importance of addressing data leakage
for robust and reliable ML applications.
- Abstract(参考訳): 機械学習(ML)はさまざまな領域に革命をもたらし、いくつかの領域で予測機能を提供する。
しかし、MLツールのアクセシビリティが向上するにつれて、多くの実践者は、MLの深い専門知識を欠いた"プッシュ・ザ・ボタン"アプローチを採用し、基礎となるアルゴリズムを十分に理解することなく、ユーザフレンドリなインターフェースを活用している。
このアプローチは利便性を提供するが、結果の信頼性に関する懸念を提起し、不正なパフォーマンス評価などの課題につながる。
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を及ぼす、データ漏洩として知られるMLにおける重要な問題に対処する。
ユーザの理解が不足しているため、不注意に重要なステップを見落とし、現実のシナリオでは持たない楽観的なパフォーマンス見積に繋がる可能性がある。
新しいデータに対する評価と実際のパフォーマンスの相違は重要な懸念事項である。
特に、MLにおけるデータ漏洩を分類し、特定の条件がMLワークフローを通してどのように伝播するかについて議論する。
さらに,データ漏洩と対処対象の特定タスクとの関係を調査し,転送学習におけるその発生を調査し,標準インダクティブmlとトランスダクティブmlフレームワークを比較した。
結論は、堅牢で信頼性の高いMLアプリケーションにおいて、データの漏洩に対処することの重要性を強調しながら、重要な結果をまとめている。
関連論文リスト
- Dissecting Misalignment of Multimodal Large Language Models via Influence Function [12.832792175138241]
コントラスト損失に対する拡張影響関数 (ECIF) を導入し, コントラスト損失に対する影響関数について検討した。
ECIFは正と負の両方のサンプルを考慮し、対照的な学習モデルの閉形式近似を提供する。
ECIFを基盤として,MLLMにおけるデータ評価,誤アライメント検出,誤予測トレースバックタスクなどの一連のアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-18T15:45:41Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - SoK: Dataset Copyright Auditing in Machine Learning Systems [23.00196984807359]
本稿では,現在のデータセット著作権監査ツールについて検討し,その有効性と限界について検討する。
本稿では,データセットによる著作権監査研究を,侵入的手法と非侵入的手法の2つに分類する。
結果の要約として、現在の文献における詳細な参照テーブル、キーポイントのハイライト、未解決問題について紹介する。
論文 参考訳(メタデータ) (2024-10-22T02:06:38Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Utilizing Domain Knowledge: Robust Machine Learning for Building Energy
Prediction with Small, Inconsistent Datasets [1.1081836812143175]
機械学習(ML)アプリケーションに対する膨大なデータ需要は、現在ボトルネックとなっている。
本稿では,先行知識とデータ駆動手法を組み合わせることで,データの依存性を大幅に低減する手法を提案する。
知識符号化データ駆動手法としてCBMLをエネルギー効率の高い建築工学の文脈で検討する。
論文 参考訳(メタデータ) (2023-01-23T08:56:11Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Rethinking Streaming Machine Learning Evaluation [9.69979862225396]
ストリーミングML問題の性質が,新たな現実的課題(ラベルの到着遅延など)を導入し,ストリーミングMLのパフォーマンスを評価するための追加メトリクスを推奨する方法について論じる。
論文 参考訳(メタデータ) (2022-05-23T17:21:43Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z) - Transfer Learning without Knowing: Reprogramming Black-box Machine
Learning Models with Scarce Data and Limited Resources [78.72922528736011]
そこで我々は,ブラックボックス・アタベラル・リプログラミング (BAR) という新しい手法を提案する。
ゼロオーダー最適化とマルチラベルマッピング技術を用いて、BARは入力出力応答のみに基づいてブラックボックスMLモデルをプログラムする。
BARは最先端の手法より優れ、バニラ対逆プログラミング法に匹敵する性能を得る。
論文 参考訳(メタデータ) (2020-07-17T01:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。