論文の概要: On Leakage in Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2311.04179v2
- Date: Tue, 5 Mar 2024 09:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 01:51:00.661183
- Title: On Leakage in Machine Learning Pipelines
- Title(参考訳): 機械学習パイプラインの漏洩について
- Authors: Leonard Sasse and Eliana Nicolaisen-Sobesky and Juergen Dukart and
Simon B. Eickhoff and Michael G\"otz and Sami Hamdan and Vera Komeyer and
Abhijit Kulkarni and Juha Lahnakoski and Bradley C. Love and Federico
Raimondo and Kaustubh R. Patil
- Abstract要約: 機械学習(ML)は予測モデリングのための強力なツールを提供する。
MLパイプラインは、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。
具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。
- 参考スコア(独自算出の注目度): 1.7615776824915677
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) provides powerful tools for predictive modeling. ML's
popularity stems from the promise of sample-level prediction with applications
across a variety of fields from physics and marketing to healthcare. However,
if not properly implemented and evaluated, ML pipelines may contain leakage
typically resulting in overoptimistic performance estimates and failure to
generalize to new data. This can have severe negative financial and societal
implications. Our aim is to expand understanding associated with causes leading
to leakage when designing, implementing, and evaluating ML pipelines.
Illustrated by concrete examples, we provide a comprehensive overview and
discussion of various types of leakage that may arise in ML pipelines.
- Abstract(参考訳): 機械学習(ML)は予測モデリングのための強力なツールを提供する。
MLの人気は、物理学やマーケティング、医療など、さまざまな分野の応用において、サンプルレベルの予測が約束されることに由来する。
しかし、適切に実装され評価されていない場合、MLパイプラインは、通常、過度に最適化されたパフォーマンス見積と新しいデータへの一般化の失敗をもたらすリークを含む可能性がある。
これは深刻な負の財政と社会的影響をもたらす可能性がある。
私たちの目標は、MLパイプラインの設計、実装、評価においてリークにつながる原因に関する理解を広げることです。
具体例で示し、MLパイプラインで発生する可能性のあるさまざまな種類のリークについて、包括的概要と議論を提供する。
関連論文リスト
- Don't Push the Button! Exploring Data Leakage Risks in Machine Learning
and Transfer Learning [0.0]
本稿では、意図しない情報がトレーニングデータを汚染し、モデルの性能評価に影響を与える機械学習(ML)における重要な問題に対処する。
新たなデータに対する評価と実際のパフォーマンスの相違は大きな懸念事項である。
データ漏洩と対処中の特定のタスクとの関係を調査し、Transfer Learningにおけるその発生を調査し、標準的なインダクティブMLとトランスダクティブMLフレームワークを比較します。
論文 参考訳(メタデータ) (2024-01-24T20:30:52Z) - Pyreal: A Framework for Interpretable ML Explanations [51.14710806705126]
Pyrealは、さまざまな解釈可能な機械学習説明を生成するシステムである。
Pyrealは、モデルによって期待される機能空間、関連する説明アルゴリズム、および人間のユーザ間でデータと説明を変換する。
我々の研究は、Pyrealが既存のシステムよりも有用な説明を生成することを示した。
論文 参考訳(メタデータ) (2023-12-20T15:04:52Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Uncertainty Quantification with Pre-trained Language Models: A
Large-Scale Empirical Analysis [120.9545643534454]
パイプラインは校正誤差を最小限に抑えることが重要であり、特に安全クリティカルな応用において重要である。
パイプラインの背景には,(1)PLMの選択と(2)サイズ,(3)不確実性定量化器の選択,(4)微調整損失の選択など,さまざまな考察がある。
1) PLM符号化にELECTRAを使用し、(2) 可能であればより大きなPLMを使用し、(3) 不確実性定量化にTemp Scalingを使用し、(4) 微調整にFocal Lossを使用する。
論文 参考訳(メタデータ) (2022-10-10T14:16:01Z) - Modeling Quality and Machine Learning Pipelines through Extended Feature
Models [0.0]
本稿では,機能モデルメタモデルを適切に拡張した品質MLパイプラインのための新しいエンジニアリング手法を提案する。
提案されたアプローチでは、MLパイプライン、その品質要件(パイプライン全体と単一フェーズ)、各パイプラインフェーズを実装するアルゴリズムの品質特性をモデル化することができる。
論文 参考訳(メタデータ) (2022-07-15T15:20:28Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Adaptive neighborhood Metric learning [184.95321334661898]
適応的近傍距離距離学習(ANML)という新しい距離距離距離距離距離距離学習アルゴリズムを提案する。
ANMLは線形埋め込みと深層埋め込みの両方を学ぶのに使うことができる。
本手法で提案するemphlog-exp平均関数は,深層学習手法をレビューするための新たな視点を与える。
論文 参考訳(メタデータ) (2022-01-20T17:26:37Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z) - Underspecification Presents Challenges for Credibility in Modern Machine
Learning [95.90009829265297]
深層学習など、現代のMLパイプラインでは、過小評価が一般的である。
ここでは、そのような予測器がデプロイメントドメインで非常に異なる振る舞いをすることができることを示す。
この曖昧さは、現実の不安定性とモデルの振る舞いを損なう可能性がある。
論文 参考訳(メタデータ) (2020-11-06T14:53:13Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。