論文の概要: MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines
- arxiv url: http://arxiv.org/abs/2010.10246v4
- Date: Tue, 16 Mar 2021 12:54:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 12:21:57.822401
- Title: MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines
- Title(参考訳): MLCask: コラボレーションデータ分析パイプラインにおけるコンポーネント進化の効率的な管理
- Authors: Zhaojing Luo, Sai Ho Yeung, Meihui Zhang, Kaiping Zheng, Lei Zhu, Gang
Chen, Feiyi Fan, Qian Lin, Kee Yuan Ngiam, Beng Chin Ooi
- Abstract要約: マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
- 参考スコア(独自算出の注目度): 29.999324319722508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the ever-increasing adoption of machine learning for data analytics,
maintaining a machine learning pipeline is becoming more complex as both the
datasets and trained models evolve with time. In a collaborative environment,
the changes and updates due to pipeline evolution often cause cumbersome
coordination and maintenance work, raising the costs and making it hard to use.
Existing solutions, unfortunately, do not address the version evolution
problem, especially in a collaborative environment where non-linear version
control semantics are necessary to isolate operations made by different user
roles. The lack of version control semantics also incurs unnecessary storage
consumption and lowers efficiency due to data duplication and repeated data
pre-processing, which are avoidable. In this paper, we identify two main
challenges that arise during the deployment of machine learning pipelines, and
address them with the design of versioning for an end-to-end analytics system
MLCask. The system supports multiple user roles with the ability to perform
Git-like branching and merging operations in the context of the machine
learning pipelines. We define and accelerate the metric-driven merge operation
by pruning the pipeline search tree using reusable history records and pipeline
compatibility information. Further, we design and implement the prioritized
pipeline search, which gives preference to the pipelines that probably yield
better performance. The effectiveness of MLCask is evaluated through an
extensive study over several real-world deployment cases. The performance
evaluation shows that the proposed merge operation is up to 7.8x faster and
saves up to 11.9x storage space than the baseline method that does not utilize
history records.
- Abstract(参考訳): データセットとトレーニングされたモデルの両方が時間とともに進化するにつれ、機械学習パイプラインのメンテナンスはますます複雑になっています。
協調的な環境では、パイプラインの進化による変更や更新は、しばしば面倒な調整やメンテナンス作業を引き起こし、コストを上げ、使用を困難にします。
既存のソリューションは、特に異なるユーザロールによる操作を分離するために、線形でないバージョン管理セマンティクスを必要とする共同環境では、バージョン進化の問題に対処しない。
バージョン管理セマンティクスの欠如も不要なストレージ消費を引き起こし、データの重複やデータ前処理の繰り返しによる効率を低下させる。
本稿では、機械学習パイプラインのデプロイ時に発生する2つの主な課題を特定し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
システムは、複数のユーザロールをサポートし、マシンラーニングパイプラインのコンテキストでGitライクなブランチとマージ操作を実行することができる。
我々は,再利用可能な履歴レコードとパイプライン互換性情報を用いてパイプライン探索ツリーをprunすることで,メトリック駆動マージ動作を定義し,高速化する。
さらに、優先順位付けされたパイプライン検索を設計、実装し、より良いパフォーマンスをもたらすパイプラインを優先します。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
性能評価の結果,提案手法は最大7.8倍高速であり,履歴記録を使用しないベースライン法よりも11.9倍のストレージ容量を節約できることがわかった。
関連論文リスト
- ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - Reproducible data science over data lakes: replayable data pipelines with Bauplan and Nessie [5.259526087073711]
我々はNessieと共にクラウドランタイムを活用することにより、計算とデータ管理を分離するように設計されたシステムを導入する。
オブジェクトストレージ上にタイムトラベラとブランチのセマンティクスを提供する機能を示し、CLIコマンドで完全なパイプラインを提供する。
論文 参考訳(メタデータ) (2024-04-21T14:53:33Z) - List-aware Reranking-Truncation Joint Model for Search and
Retrieval-augmented Generation [80.12531449946655]
本稿では,2つのタスクを同時に実行可能なRe rank-Truncation joint model(GenRT)を提案する。
GenRTは、エンコーダ-デコーダアーキテクチャに基づく生成パラダイムによるリランクとトランケーションを統合している。
提案手法は,Web検索および検索拡張LLMにおけるリランクタスクとトラルケーションタスクの両方においてSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-02-05T06:52:53Z) - Trusted Provenance of Automated, Collaborative and Adaptive Data Processing Pipelines [2.186901738997927]
ソリューションアーキテクチャと、Provenance Holderと呼ばれるサービスのコンセプト実装の証明を提供しています。
Provenance Holderは、コラボレーティブで適応的なデータ処理パイプラインを信頼できる方法で実現可能にする。
論文 参考訳(メタデータ) (2023-10-17T17:52:27Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Towards Personalized Preprocessing Pipeline Search [52.59156206880384]
ClusterP3Sは、Clusteringを介してパイプライン検索をパーソナライズする新しいフレームワークである。
本稿では,クラスタを協調的に学習し,最適なパイプラインを探索するための階層的探索手法を提案する。
ベンチマーク分類データセットの実験では、機能的に前処理可能なパイプライン探索の有効性が示されている。
論文 参考訳(メタデータ) (2023-02-28T05:45:05Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Automated Evolutionary Approach for the Design of Composite Machine
Learning Pipelines [48.7576911714538]
提案手法は、複合機械学習パイプラインの設計を自動化することを目的としている。
パイプラインをカスタマイズ可能なグラフベースの構造で設計し、得られた結果を分析して再生する。
このアプローチのソフトウェア実装は、オープンソースフレームワークとして紹介されている。
論文 参考訳(メタデータ) (2021-06-26T23:19:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。