論文の概要: Couler: Unified Machine Learning Workflow Optimization in Cloud
- arxiv url: http://arxiv.org/abs/2403.07608v1
- Date: Tue, 12 Mar 2024 12:47:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 21:36:20.809320
- Title: Couler: Unified Machine Learning Workflow Optimization in Cloud
- Title(参考訳): couler:クラウドでの統一機械学習ワークフロー最適化
- Authors: Xiaoda Wang, Yuan Tang, Tengda Guo, Bo Sang, Jingji Wu, Jian Sha, Ke
Zhang, Jiang Qian, Mingjie Tang
- Abstract要約: Coulerは、クラウドにおけるMLワークフローの統一最適化のために設計されたシステムである。
大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。
Couerは、CPU/メモリ使用率を15%以上改善し、ワークフロー完了率を約17%向上させた。
- 参考スコア(独自算出の注目度): 6.769259207650922
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning (ML) has become ubiquitous, fueling data-driven applications
across various organizations. Contrary to the traditional perception of ML in
research, ML workflows can be complex, resource-intensive, and time-consuming.
Expanding an ML workflow to encompass a wider range of data infrastructure and
data types may lead to larger workloads and increased deployment costs.
Currently, numerous workflow engines are available (with over ten being widely
recognized). This variety poses a challenge for end-users in terms of mastering
different engine APIs. While efforts have primarily focused on optimizing ML
Operations (MLOps) for a specific workflow engine, current methods largely
overlook workflow optimization across different engines.
In this work, we design and implement Couler, a system designed for unified
ML workflow optimization in the cloud. Our main insight lies in the ability to
generate an ML workflow using natural language (NL) descriptions. We integrate
Large Language Models (LLMs) into workflow generation, and provide a unified
programming interface for various workflow engines. This approach alleviates
the need to understand various workflow engines' APIs. Moreover, Couler
enhances workflow computation efficiency by introducing automated caching at
multiple stages, enabling large workflow auto-parallelization and automatic
hyperparameters tuning. These enhancements minimize redundant computational
costs and improve fault tolerance during deep learning workflow training.
Couler is extensively deployed in real-world production scenarios at Ant Group,
handling approximately 22k workflows daily, and has successfully improved the
CPU/Memory utilization by more than 15% and the workflow completion rate by
around 17%.
- Abstract(参考訳): 機械学習(ML)はユビキタスになり、さまざまな組織にデータ駆動型アプリケーションを提供している。
研究におけるMLの従来の認識とは対照的に、MLワークフローは複雑でリソース集約的で時間を要する可能性がある。
MLワークフローを拡張して、幅広いデータインフラストラクチャとデータタイプを拡張することで、ワークロードが大きくなり、デプロイメントコストが増加する可能性がある。
現在、多数のワークフローエンジンが利用可能である(10以上が広く認識されている)。
この多様性は、異なるエンジンAPIをマスターするという点でエンドユーザにとって課題となる。
ML運用(MLOps)を特定のワークフローエンジンに最適化することに重点を置いている一方で、現在のメソッドは、さまざまなエンジン間のワークフロー最適化を概ね見落としている。
本研究では,クラウド上でのMLワークフローの統一最適化を目的としたシステムであるCoulerの設計と実装を行う。
私たちの主な洞察は、自然言語(NL)記述を使用してMLワークフローを生成する能力にあります。
大規模言語モデル(LLM)をワークフロー生成に統合し、さまざまなワークフローエンジンに統一されたプログラミングインターフェースを提供する。
このアプローチは、様々なワークフローエンジンのapiを理解する必要性を軽減する。
さらに、Coulerは複数のステージで自動キャッシュを導入し、ワークフローの自動並列化と自動ハイパーパラメータチューニングを可能にすることにより、ワークフローの計算効率を向上させる。
これらの拡張は、冗長な計算コストを最小化し、ディープラーニングワークフロートレーニング中のフォールトトレランスを改善する。
CoulerはAnt Groupの実際の運用シナリオに広くデプロイされており、毎日約22万のワークフローを処理し、CPU/メモリ使用率を15%以上改善し、ワークフローの完了率を約17%改善した。
関連論文リスト
- Not All Experts are Equal: Efficient Expert Pruning and Skipping for
Mixture-of-Experts Large Language Models [94.02958592636972]
MoE LLMはより少ないパラメータで高いパフォーマンスを実現することができるが、パラメータサイズが大きいためデプロイは困難である。
本稿では主に,プラグ・アンド・プレイ・エキスパートレベルのスペーシフィケーション技術を導入することで,MoE LLMの展開効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2024-02-22T18:56:07Z) - Accelerated Cloud for Artificial Intelligence (ACAI) [24.40451195277244]
我々は、エンドツーエンドのクラウドベースの機械学習プラットフォームであるAccelerated Cloud for AI (ACAI)を提案する。
ACAIは、インデックス付き、ラベル付き、検索可能なデータのクラウドストレージと、自動リソースプロビジョニング、ジョブスケジューリング、実験追跡を可能にする。
自動プロビジョン装置は1.7倍のスピードアップと39%のコスト削減を実現し,典型的なMLのユースケースにおいて,ML科学者の実験時間を20%短縮することを示した。
論文 参考訳(メタデータ) (2024-01-30T07:09:48Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - MLOps: A Step Forward to Enterprise Machine Learning [0.0]
この研究は、MLOps、そのメリット、困難、進化、および重要な基盤技術に関する詳細なレビューを提示する。
MLOpsワークフローは、モデルとデータ探索とデプロイメントの両方に必要なさまざまなツールとともに、詳細に説明されている。
この記事では、さまざまな成熟度の高い自動パイプラインを使用して、MLプロジェクトのエンドツーエンド生産にも光を当てます。
論文 参考訳(メタデータ) (2023-05-27T20:44:14Z) - OmniForce: On Human-Centered, Large Model Empowered and Cloud-Edge
Collaborative AutoML System [85.8338446357469]
我々は人間中心のAutoMLシステムであるOmniForceを紹介した。
我々は、OmniForceがAutoMLシステムを実践し、オープン環境シナリオにおける適応型AIを構築する方法について説明する。
論文 参考訳(メタデータ) (2023-03-01T13:35:22Z) - Walle: An End-to-End, General-Purpose, and Large-Scale Production System
for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML)
Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。
我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文 参考訳(メタデータ) (2022-05-30T03:43:35Z) - Multi-objective Optimization of Clustering-based Scheduling for
Multi-workflow On Clouds Considering Fairness [4.021507306414546]
本稿では,資源割り当てのためのクラスタリングに基づくマルチワークフロースケジューリング手法を提案する。
実験結果から,提案手法の精度は,提案手法が比較アルゴリズムよりも優れており,全体の規模とコストと,個別の公平性を著しく損なうことなく性能が向上することが示された。
論文 参考訳(メタデータ) (2022-05-23T10:25:16Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Demystifying a Dark Art: Understanding Real-World Machine Learning Model
Development [2.422369741135428]
機械学習の追跡と共有のためのオープンソースのプラットフォームOpenMLで、ユーザ生成475万以上を分析します。
イテレーションを繰り返すと、ユーザが手動、自動化、あるいは混合のアプローチを採用することがよくあります。
論文 参考訳(メタデータ) (2020-05-04T14:33:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。