論文の概要: On Leakage in Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2311.04179v2
- Date: Tue, 5 Mar 2024 09:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:51:00.661183
- Title: On Leakage in Machine Learning Pipelines
- Title(参考訳): 機械学習パイプラインの漏洩について
- Authors: Leonard Sasse and Eliana Nicolaisen-Sobesky and Juergen Dukart and
Simon B. Eickhoff and Michael G\"otz and Sami Hamdan and Vera Komeyer and
Abhijit Kulkarni and Juha Lahnakoski and Bradley C. Love and Federico
Raimondo and Kaustubh R. Patil
- Abstract要約: 機械学習(ML)は予測モデリングのための強力なツールを提供する。
MLパイプラインは、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。
具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。
- 参考スコア(独自算出の注目度): 1.7615776824915677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) provides powerful tools for predictive modeling. ML's
popularity stems from the promise of sample-level prediction with applications
across a variety of fields from physics and marketing to healthcare. However,
if not properly implemented and evaluated, ML pipelines may contain leakage
typically resulting in overoptimistic performance estimates and failure to
generalize to new data. This can have severe negative financial and societal
implications. Our aim is to expand understanding associated with causes leading
to leakage when designing, implementing, and evaluating ML pipelines.
Illustrated by concrete examples, we provide a comprehensive overview and
discussion of various types of leakage that may arise in ML pipelines.
- Abstract(参考訳): 機械学習(ML)は予測モデリングのための強力なツールを提供する。
MLの人気は、物理学やマーケティング、医療など、さまざまな分野の応用において、サンプルレベルの予測が約束されることに由来する。
しかし、適切に実装され評価されていない場合、MLパイプラインは、通常、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。
これは深刻な負の財政と社会的影響をもたらす可能性がある。
私たちの目標は、MLパイプラインの設計、実装、評価においてリークにつながる原因に関する理解を広げることです。
具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。
関連論文リスト
- Learn from Downstream and Be Yourself in Multimodal Large Language Model Fine-Tuning [104.27224674122313]
微調整MLLMは、特定の下流タスクのパフォーマンスを改善するための一般的なプラクティスとなっている。
一般化と特殊化のトレードオフのバランスをとるために,事前学習と微調整の両方におけるパラメータの重要度を測定することを提案する。
論文 参考訳(メタデータ) (2024-11-17T01:16:37Z) - Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - Don't Push the Button! Exploring Data Leakage Risks in Machine Learning and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - Pyreal: A Framework for Interpretable ML Explanations [51.14710806705126]
Pyrealは、さまざまな解釈可能な機械学習説明を生成するシステムである。
Pyrealは、モデルによって期待される機能空間、関連する説明アルゴリズム、および人間のユーザ間でデータと説明を変換する。
我々の研究は、Pyrealが既存のシステムよりも有用な説明を生成することを示した。
論文 参考訳(メタデータ) (2023-12-20T15:04:52Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z) - Underspecification Presents Challenges for Credibility in Modern Machine
Learning [95.90009829265297]
深層学習など、現代のMLパイプラインでは、過小評価が一般的である。
ここでは、そのような予測器がデプロイメントドメインで非常に異なる振る舞いをすることができることを示す。
この曖昧さは、現実の不安定性とモデルの振る舞いを損なう可能性がある。
論文 参考訳(メタデータ) (2020-11-06T14:53:13Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。