論文の概要: Automated Planning for Optimal Data Pipeline Instantiation
- arxiv url: http://arxiv.org/abs/2503.12626v1
- Date: Sun, 16 Mar 2025 19:43:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 15:59:04.093095
- Title: Automated Planning for Optimal Data Pipeline Instantiation
- Title(参考訳): 最適データパイプラインインスティファイションのための自動計画法
- Authors: Leonardo Rosa Amado, Adriano Vogel, Dalvan Griebler, Gabriel Paludo Licks, Eric Simon, Felipe Meneguzzi,
- Abstract要約: 我々は、最適なデータパイプライン配置の問題を、アクションコストによる計画としてモデル化する。
本稿では,全実行時間を最小化する戦略を提案する。
実験結果から, 戦略がベースライン展開より優れていることが示唆された。
- 参考スコア(独自算出の注目度): 10.501636306956385
- License:
- Abstract: Data pipeline frameworks provide abstractions for implementing sequences of data-intensive transformation operators, automating the deployment and execution of such transformations in a cluster. Deploying a data pipeline, however, requires computing resources to be allocated in a data center, ideally minimizing the overhead for communicating data and executing operators in the pipeline while considering each operator's execution requirements. In this paper, we model the problem of optimal data pipeline deployment as planning with action costs, where we propose heuristics aiming to minimize total execution time. Experimental results indicate that the heuristics can outperform the baseline deployment and that a heuristic based on connections outperforms other strategies.
- Abstract(参考訳): データパイプラインフレームワークは、データ集約型変換演算子のシーケンスを実装するための抽象化を提供し、クラスタ内のそのような変換のデプロイと実行を自動化する。
しかし、データパイプラインをデプロイするには、データセンターにコンピューティングリソースを割り当てる必要があり、各オペレータの実行要件を考慮して、パイプライン内のデータ通信と演算子実行のオーバーヘッドを理想的に最小化する。
本稿では,データパイプラインの最適配置の問題をアクションコストによる計画としてモデル化し,総実行時間を最小化することを目的としたヒューリスティックスを提案する。
実験結果から, ヒューリスティックスはベースライン展開よりも優れ, 接続に基づくヒューリスティックは, その他の戦略よりも優れていたことが示唆された。
関連論文リスト
- Plan-over-Graph: Towards Parallelable LLM Agent Schedule [53.834646147919436]
大規模言語モデル(LLM)はタスク計画の推論において例外的な能力を示した。
本稿では,まず実生活のテキストタスクを実行可能なサブタスクに分解し,抽象的なタスクグラフを構築する,新しいパラダイムであるプランオーバーグラフを提案する。
モデルはこのタスクグラフを入力として理解し、並列実行計画を生成する。
論文 参考訳(メタデータ) (2025-02-20T13:47:51Z) - InTune: Reinforcement Learning-based Data Pipeline Optimization for Deep
Recommendation Models [3.7414278978078204]
深層学習に基づくレコメンデータモデル(DLRM)は多くの現代のレコメンデータシステムにおいて重要なコンポーネントとなっている。
典型的なディープラーニングトレーニングジョブはモデル実行に支配されているが、DLRMトレーニングパフォーマンスの最も重要な要素は、しばしばオンラインデータの取り込みである。
論文 参考訳(メタデータ) (2023-08-13T18:28:56Z) - Analysis and Optimization of Wireless Federated Learning with Data
Heterogeneity [72.85248553787538]
本稿では、データの不均一性を考慮した無線FLの性能解析と最適化と、無線リソース割り当てについて述べる。
ロス関数の最小化問題を、長期エネルギー消費と遅延の制約の下で定式化し、クライアントスケジューリング、リソース割り当て、ローカルトレーニングエポック数(CRE)を共同で最適化する。
実世界のデータセットの実験により、提案アルゴリズムは学習精度とエネルギー消費の点で他のベンチマークよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-08-04T04:18:01Z) - STAR: Boosting Low-Resource Information Extraction by Structure-to-Text
Data Generation with Large Language Models [56.27786433792638]
STARは大規模言語モデル(LLM)を利用してデータインスタンスを合成するデータ生成手法である。
我々は、初期データインスタンスを取得するための詳細なステップバイステップ命令を設計する。
実験の結果,STARが生成したデータは,低リソースイベント抽出および関係抽出タスクの性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-05-24T12:15:19Z) - Integrating pre-processing pipelines in ODC based framework [0.0]
本稿では,オープンソース処理パイプラインの統合に基づく仮想製品の統合手法を提案する。
このアプローチの機能を検証し,評価するために,ジオイメージング・マネジメント・フレームワークに統合した。
論文 参考訳(メタデータ) (2022-10-04T11:12:09Z) - Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning
Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。
エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。
チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文 参考訳(メタデータ) (2022-02-17T14:31:58Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - A Scalable Deep Reinforcement Learning Model for Online Scheduling
Coflows of Multi-Stage Jobs for High Performance Computing [9.866286878494979]
多段階ジョブでは、各ジョブは複数のコフローで構成され、DAG(Directed Acyclic Graph)によって表現される。
本稿では,入力を処理する新しいパイプライン-DAGNNを提案し,新しいコフロースケジューリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-12-21T09:36:55Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - MLCask: Efficient Management of Component Evolution in Collaborative
Data Analytics Pipelines [29.999324319722508]
マシンラーニングパイプラインのデプロイ時に発生する2つの大きな課題に対処し、エンドツーエンド分析システムMLCaskのバージョニング設計で対処する。
我々は,再利用可能な履歴記録とパイプライン互換性情報を用いて,パイプライン探索木を刈り取ることで,メートル法駆動のマージ操作を定義し,高速化する。
MLCaskの有効性は、いくつかの実世界の展開事例に関する広範な研究を通じて評価される。
論文 参考訳(メタデータ) (2020-10-17T13:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。