論文の概要: Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines
- arxiv url: http://arxiv.org/abs/2204.11131v2
- Date: Tue, 26 Apr 2022 19:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-29 07:34:37.826799
- Title: Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines
- Title(参考訳): エンドツーエンドの機械学習パイプライン上でのShapleyの重要性によるデータデバッグ
- Authors: Bojan Karla\v{s}, David Dao, Matteo Interlandi, Bo Li, Sebastian
Schelter, Wentao Wu, Ce Zhang
- Abstract要約: DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
- 参考スコア(独自算出の注目度): 27.461398584509755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing modern machine learning (ML) applications is data-centric, of
which one fundamental challenge is to understand the influence of data quality
to ML training -- "Which training examples are 'guilty' in making the trained
ML model predictions inaccurate or unfair?" Modeling data influence for ML
training has attracted intensive interest over the last decade, and one popular
framework is to compute the Shapley value of each training example with respect
to utilities such as validation accuracy and fairness of the trained ML model.
Unfortunately, despite recent intensive interest and research, existing methods
only consider a single ML model "in isolation" and do not consider an
end-to-end ML pipeline that consists of data transformations, feature
extractors, and ML training.
We present DataScope (ease.ml/datascope), the first system that efficiently
computes Shapley values of training examples over an end-to-end ML pipeline,
and illustrate its applications in data debugging for ML training. To this end,
we first develop a novel algorithmic framework that computes Shapley value over
a specific family of ML pipelines that we call canonical pipelines: a positive
relational algebra query followed by a K-nearest-neighbor (KNN) classifier. We
show that, for many subfamilies of canonical pipelines, computing Shapley value
is in PTIME, contrasting the exponential complexity of computing Shapley value
in general. We then put this to practice -- given an sklearn pipeline, we
approximate it with a canonical pipeline to use as a proxy. We conduct
extensive experiments illustrating different use cases and utilities. Our
results show that DataScope is up to four orders of magnitude faster over
state-of-the-art Monte Carlo-based methods, while being comparably, and often
even more, effective in data debugging.
- Abstract(参考訳): 現代の機械学習(ml)アプリケーションの開発はデータ中心であり、その1つの根本的な課題は、データ品質がmlトレーニングに与える影響を理解することである。
MLトレーニングのためのデータインフルエンスをモデル化することは、この10年間で大きな関心を集めており、トレーニングサンプルのShapley値を、トレーニングされたMLモデルのバリデーションの正確性や公平性といったユーティリティに関して計算することが一般的なフレームワークである。
残念なことに、最近の集中的な関心と研究にもかかわらず、既存の手法では単一のMLモデルのみを"分離"し、データ変換、機能抽出、MLトレーニングで構成されるエンドツーエンドのMLパイプラインを考慮していない。
本稿では,エンドツーエンドのmlパイプライン上でトレーニング例のshapley値を効率的に計算する最初のシステムであるdatascope(ease.ml/datascope)を提案する。
この目的のために、我々はまず、正のリレーショナル代数クエリに続いてK-nearest-neighbor(KNN)分類器という、MLパイプラインの特定のファミリーに対してShapley値を演算する新しいアルゴリズムフレームワークを開発した。
正準パイプラインの多くのサブファミリにおいて、共有値の計算はPTIMEで行われ、一般に共有値の指数複雑性とは対照的である。
そして、これを実践に当てはめました -- スクラブパイプラインを考えると、プロキシとして使用する標準的なパイプラインと近似します。
さまざまなユースケースやユーティリティを解説した広範な実験を実施します。
その結果、datascopeは最先端のモンテカルロ法よりも最大4桁高速でありながら、データデバッグにおいて相性が良く、より効果的であることが示された。
関連論文リスト
- Scaling Laws for Predicting Downstream Performance in LLMs [75.28559015477137]
この研究は、性能評価のためのより効率的な指標として、事前学習損失に焦点を当てている。
我々は、データソース間のFLOPに基づいて、ドメイン固有の事前学習損失を予測するために、電力法解析関数を拡張した。
我々は2層ニューラルネットワークを用いて、複数のドメイン固有の損失と下流性能の非線形関係をモデル化する。
論文 参考訳(メタデータ) (2024-10-11T04:57:48Z) - Physics Informed Machine Learning (PIML) methods for estimating the remaining useful lifetime (RUL) of aircraft engines [0.0]
本研究の目的は、新たに開発された物理情報機械学習(PIML)を用いて、残りの実用寿命(RUL)航空機エンジンの予測モデルを開発することである。
本稿では,NASAのC-MAPSS(Commercial Modular Aero-Propulsion System Simulation System)データについて概説する。
C-MAPSSは、古典的および深層学習手法でRUL予測に対処する、文献における多くの既存の研究を含む、よく研究されたデータセットである。
論文 参考訳(メタデータ) (2024-06-21T19:55:34Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - ezDPS: An Efficient and Zero-Knowledge Machine Learning Inference
Pipeline [2.0813318162800707]
我々は,新しい効率的かつゼロ知識の機械学習推論スキームであるezDPSを提案する。
ezDPSはzkMLパイプラインで、データを複数のステージで高精度に処理する。
ezDPSは,全測定値における一般的な回路ベース手法よりも1~3桁効率が高いことを示す。
論文 参考訳(メタデータ) (2022-12-11T06:47:28Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Exploring Opportunistic Meta-knowledge to Reduce Search Spaces for
Automated Machine Learning [8.325359814939517]
本稿では,従来の経験から,パイプライン合成/最適化プロセスを開始する前に,利用可能な分類器/回帰器のプールを事前に計算できるかどうかを検討する。
論文 参考訳(メタデータ) (2021-05-01T15:25:30Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。