論文の概要: Towards Interactively Improving ML Data Preparation Code via "Shadow Pipelines"
- arxiv url: http://arxiv.org/abs/2404.19591v1
- Date: Tue, 30 Apr 2024 14:36:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 13:55:56.824433
- Title: Towards Interactively Improving ML Data Preparation Code via "Shadow Pipelines"
- Title(参考訳): シェードウパイプライン」によるMLデータ準備コードの相互改善に向けて
- Authors: Stefan Grafberger, Paul Groth, Sebastian Schelter,
- Abstract要約: データサイエンティストはMLパイプラインを反復的に開発し、潜在的な問題に対して繰り返しパイプラインをスクリーニングし、デバッグし、発見に従ってコードを修正して改善する。
本稿では,パイプライン改善のための対話的提案を自動生成して,この開発サイクルでデータサイエンティストを支援することを提案する。
我々は、これらの提案をいわゆるシャドウパイプラインで生成するビジョンについて議論し、潜在的な問題を自動的に検出するために修正したオリジナルのパイプラインの隠れたバリエーション、改善のための修正を試し、これらの修正をユーザに提案し、説明します。
低レイテンシの計算とシャドウパイプラインのメンテナンスを確保するために、インクリメンタルビューのメンテナンスベースの最適化を適用することを計画している。
- 参考スコア(独自算出の注目度): 13.559945160284876
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data scientists develop ML pipelines in an iterative manner: they repeatedly screen a pipeline for potential issues, debug it, and then revise and improve its code according to their findings. However, this manual process is tedious and error-prone. Therefore, we propose to support data scientists during this development cycle with automatically derived interactive suggestions for pipeline improvements. We discuss our vision to generate these suggestions with so-called shadow pipelines, hidden variants of the original pipeline that modify it to auto-detect potential issues, try out modifications for improvements, and suggest and explain these modifications to the user. We envision to apply incremental view maintenance-based optimisations to ensure low-latency computation and maintenance of the shadow pipelines. We conduct preliminary experiments to showcase the feasibility of our envisioned approach and the potential benefits of our proposed optimisations.
- Abstract(参考訳): データサイエンティストはMLパイプラインを反復的に開発し、潜在的な問題に対して繰り返しパイプラインをスクリーニングし、デバッグし、発見に従ってコードを修正して改善する。
しかし、この手作業は面倒でエラーを起こしやすい。
そこで本研究では,パイプライン改善のための対話的提案を自動生成して,この開発サイクルにおいてデータサイエンティストを支援することを提案する。
我々は、これらの提案をいわゆるシャドウパイプラインで生成するビジョンについて議論し、潜在的な問題を自動的に検出するために修正したオリジナルのパイプラインの隠れたバリエーション、改善のための修正を試し、これらの修正をユーザに提案し、説明します。
我々は、低レイテンシの計算とシャドウパイプラインのメンテナンスを確保するために、インクリメンタルビューのメンテナンスベースの最適化を適用することを計画している。
提案手法の有効性と,提案手法の有効性を実証するための予備実験を行った。
関連論文リスト
- Trusted Provenance of Automated, Collaborative and Adaptive Data Processing Pipelines [2.186901738997927]
ソリューションアーキテクチャと、Provenance Holderと呼ばれるサービスのコンセプト実装の証明を提供しています。
Provenance Holderは、コラボレーティブで適応的なデータ処理パイプラインを信頼できる方法で実現可能にする。
論文 参考訳(メタデータ) (2023-10-17T17:52:27Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - Controllable Data Augmentation Through Deep Relighting [75.96144853354362]
我々は、既存のモデルが照度変化に不変である能力を改善するために、リライトを通じて様々な画像データセットを拡大する方法を探る。
我々は,エンコーダ・デコーダネットワークをベースとして,様々な入力シーンの照明の様々なバリエーションを迅速に生成できるツールを開発した。
パイプラインで拡張されたデータセットのモデルをトレーニングすることで、ローカライゼーションベンチマークでより高いパフォーマンスを実現することが可能であることを実証した。
論文 参考訳(メタデータ) (2021-10-26T20:02:51Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - Self-Tuning Stochastic Optimization with Curvature-Aware Gradient
Filtering [53.523517926927894]
サンプルごとのHessian-vector積と勾配を用いて、自己チューニングの二次構造を構築する。
モデルに基づく手続きが雑音勾配設定に収束することを証明する。
これは自己チューニング二次体を構築するための興味深いステップである。
論文 参考訳(メタデータ) (2020-11-09T22:07:30Z) - Stochastic Optimization with Laggard Data Pipelines [65.20044914532221]
共通最適化手法の「データ抽出」拡張は同期手法よりも優れた性能を示すことを示す。
具体的には、ミニバッチによる凸最適化において、データエコーは、最適統計率を維持しながら収束率の曲率に支配される部分の高速化をもたらすことを示す。
論文 参考訳(メタデータ) (2020-10-26T14:55:31Z) - AVATAR -- Machine Learning Pipeline Evaluation Using Surrogate Model [10.83607599315401]
本稿では,サロゲートモデル(AVATAR)を用いたMLパイプラインの有効性評価手法を提案する。
実験の結果, AVATARは, 従来の評価手法と比較して, 複雑なパイプラインの評価においてより効率的であることがわかった。
論文 参考訳(メタデータ) (2020-01-30T02:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。