論文の概要: Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach
- arxiv url: http://arxiv.org/abs/2408.11635v1
- Date: Wed, 21 Aug 2024 14:05:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-22 16:47:35.156540
- Title: Cost-Effective Big Data Orchestration Using Dagster: A Multi-Platform Approach
- Title(参考訳): Dagsterを用いたコスト効果のあるビッグデータオーケストレーション:マルチプラットフォームアプローチ
- Authors: Hernan Picatto, Georg Heiler, Peter Klimek,
- Abstract要約: 本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。
Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 0.10241134756773229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of big data technologies has underscored the need for robust and efficient data processing solutions. Traditional Spark-based Platform-as-a-Service (PaaS) solutions, such as Databricks and Amazon Web Services Elastic MapReduce, provide powerful analytics capabilities but often result in high operational costs and vendor lock-in issues. These platforms, while user-friendly, can lead to significant inefficiencies due to their cost structures and lack of transparent pricing. This paper introduces a cost-effective and flexible orchestration framework using Dagster. Our solution aims to reduce dependency on any single PaaS provider by integrating various Spark execution environments. We demonstrate how Dagster's orchestration capabilities can enhance data processing efficiency, enforce best coding practices, and significantly reduce operational costs. In our implementation, we achieved a 12% performance improvement over EMR and a 40% cost reduction compared to DBR, translating to over 300 euros saved per pipeline run. Our goal is to provide a flexible, developer-controlled computing environment that maintains or improves performance and scalability while mitigating the risks associated with vendor lock-in. The proposed framework supports rapid prototyping and testing, which is essential for continuous development and operational efficiency, contributing to a more sustainable model of large data processing.
- Abstract(参考訳): ビッグデータ技術の急速な進歩は、堅牢で効率的なデータ処理ソリューションの必要性を浮き彫りにした。
DatabricksやAmazon Web Services Elastic MapReduceといった従来のSparkベースのプラットフォーム・アズ・ア・サービス(PaaS)ソリューションは強力な分析機能を提供するが、多くの場合、高い運用コストとベンダのロックインの問題をもたらす。
これらのプラットフォームは、ユーザフレンドリだが、コスト構造や透明な価格設定の欠如により、大きな非効率をもたらす可能性がある。
本稿では,Dagsterを用いた費用対効果と柔軟なオーケストレーションフレームワークを提案する。
私たちのソリューションは、Sparkの実行環境を統合することで、単一のPaaSプロバイダへの依存を減らすことを目的としています。
Dagsterのオーケストレーション機能によって、データ処理の効率が向上し、最高のコーディングプラクティスを強制し、運用コストを大幅に削減できることを示す。
実装では、EMRよりも12%の性能向上と、DBRに比べて40%のコスト削減を実現し、1パイプライン当たり300ユーロ以上の節約を実現しました。
私たちのゴールは、ベンダーロックインに関連するリスクを軽減しつつ、パフォーマンスとスケーラビリティを維持または改善する、フレキシブルで開発者制御型のコンピューティング環境を提供することです。
提案するフレームワークは、継続的開発と運用効率に不可欠な、高速なプロトタイピングとテストをサポートし、より持続可能な大規模データ処理モデルに寄与する。
関連論文リスト
- The Effect of Scheduling and Preemption on the Efficiency of LLM Inference Serving [8.552242818726347]
INFERMAXは様々なスケジューラを比較するために推論コストモデルを使用する分析フレームワークである。
その結果,プリエンプション要求はプリエンプションを回避するよりもGPUコストを30%削減できることがわかった。
論文 参考訳(メタデータ) (2024-11-12T00:10:34Z) - CEBench: A Benchmarking Toolkit for the Cost-Effectiveness of LLM Pipelines [29.25579967636023]
CEBenchは、オンラインの大規模言語モデルをベンチマークするためのオープンソースのツールキットである。
LLMデプロイメントに必要な支出と有効性の間の重要なトレードオフに焦点を当てている。
この能力は、コストへの影響を最小限にしつつ、有効性を最大化することを目的とした重要な意思決定プロセスをサポートします。
論文 参考訳(メタデータ) (2024-06-20T21:36:00Z) - Cost-Sensitive Multi-Fidelity Bayesian Optimization with Transfer of Learning Curve Extrapolation [55.75188191403343]
各ユーザが事前に定義した機能であるユーティリティを導入し,BOのコストと性能のトレードオフについて述べる。
このアルゴリズムをLCデータセット上で検証した結果,従来のマルチファイルBOや転送BOベースラインよりも優れていた。
論文 参考訳(メタデータ) (2024-05-28T07:38:39Z) - Efficient Architecture Search via Bi-level Data Pruning [70.29970746807882]
この研究は、DARTSの双方向最適化におけるデータセット特性の重要な役割を探求する先駆者となった。
我々は、スーパーネット予測力学を計量として活用する新しいプログレッシブデータプルーニング戦略を導入する。
NAS-Bench-201サーチスペース、DARTSサーチスペース、MobileNetのようなサーチスペースに関する総合的な評価は、BDPがサーチコストを50%以上削減することを検証する。
論文 参考訳(メタデータ) (2023-12-21T02:48:44Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - VFed-SSD: Towards Practical Vertical Federated Advertising [53.08038962443853]
本稿では,2つの制限を緩和する半教師付き分割蒸留フレームワーク VFed-SSD を提案する。
具体的には,垂直分割された未ラベルデータを利用する自己教師型タスクMatchedPair Detection (MPD) を開発する。
当社のフレームワークは,デプロイコストの最小化と大幅なパフォーマンス向上を図った,リアルタイム表示広告のための効率的なフェデレーション強化ソリューションを提供する。
論文 参考訳(メタデータ) (2022-05-31T17:45:30Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - AdaSplit: Adaptive Trade-offs for Resource-constrained Distributed Deep
Learning [18.3841463794885]
Split Learning (SL)は、クライアントとサーバの間でモデルのトレーニングを分割することで、クライアントの計算負荷を削減する。
AdaSplitは、帯域幅の削減と異種クライアント間のパフォーマンス向上により、SLをリソースの少ないシナリオに効率的にスケーリングすることを可能にする。
論文 参考訳(メタデータ) (2021-12-02T23:33:15Z) - High-performance, Distributed Training of Large-scale Deep Learning
Recommendation Models [18.63017668881868]
ディープラーニングレコメンデーションモデル(DLRM)は、Facebookの多くのビジネスクリティカルサービスで使用されている。
本稿では,大規模DLRMの高性能分散トレーニングのためのSW/HW共同設計ソリューションについて論じる。
我々は、最大12トリリオンパラメータで非常に大きなDLRMを訓練する能力を実証し、以前のシステムよりも解決策に時間の観点から40倍のスピードアップを達成できることを示しています。
論文 参考訳(メタデータ) (2021-04-12T02:15:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。