論文の概要: Karasu: A Collaborative Approach to Efficient Cluster Configuration for
Big Data Analytics
- arxiv url: http://arxiv.org/abs/2308.11792v1
- Date: Tue, 22 Aug 2023 21:14:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:36:36.589200
- Title: Karasu: A Collaborative Approach to Efficient Cluster Configuration for
Big Data Analytics
- Title(参考訳): Karasu: ビッグデータ分析のための効率的なクラスタ構成のためのコラボレーションアプローチ
- Authors: Dominik Scheinert, Philipp Wiesner, Thorsten Wittkopp, Lauritz
Thamsen, Jonathan Will, and Odej Kao
- Abstract要約: Karasuは、より効率的なリソース構成プロファイリングへのアプローチである。
同様のインフラストラクチャ、フレームワーク、アルゴリズム、データセットを扱うユーザ間のデータ共有を促進する。
カラスでは, 性能, 検索時間, コストの観点から, 既存の手法を大幅に向上できることを示す。
- 参考スコア(独自算出の注目度): 3.779250782197386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Selecting the right resources for big data analytics jobs is hard because of
the wide variety of configuration options like machine type and cluster size.
As poor choices can have a significant impact on resource efficiency, cost, and
energy usage, automated approaches are gaining popularity. Most existing
methods rely on profiling recurring workloads to find near-optimal solutions
over time. Due to the cold-start problem, this often leads to lengthy and
costly profiling phases. However, big data analytics jobs across users can
share many common properties: they often operate on similar infrastructure,
using similar algorithms implemented in similar frameworks. The potential in
sharing aggregated profiling runs to collaboratively address the cold start
problem is largely unexplored.
We present Karasu, an approach to more efficient resource configuration
profiling that promotes data sharing among users working with similar
infrastructures, frameworks, algorithms, or datasets. Karasu trains lightweight
performance models using aggregated runtime information of collaborators and
combines them into an ensemble method to exploit inherent knowledge of the
configuration search space. Moreover, Karasu allows the optimization of
multiple objectives simultaneously. Our evaluation is based on performance data
from diverse workload executions in a public cloud environment. We show that
Karasu is able to significantly boost existing methods in terms of performance,
search time, and cost, even when few comparable profiling runs are available
that share only partial common characteristics with the target job.
- Abstract(参考訳): マシンタイプやクラスタサイズなど、さまざまな設定オプションがあるため、ビッグデータ分析ジョブの適切なリソースの選択は困難です。
選択不足が資源効率、コスト、エネルギー利用に重大な影響を与えるため、自動化アプローチが人気を集めています。
既存のメソッドのほとんどは、時間とともに最適に近いソリューションを見つけるために、繰り返し発生するワークロードのプロファイリングに依存している。
コールドスタートの問題のため、これはしばしば長くコストのかかるプロファイリングフェーズにつながる。
しかし、ユーザ間のビッグデータ分析ジョブは、多くの共通プロパティを共有することができる。
集約されたプロファイリングを共有する可能性は、コールドスタート問題に対処するために協調的に実行されます。
Karasuは、同様のインフラストラクチャ、フレームワーク、アルゴリズム、データセットを扱うユーザ間のデータ共有を促進する、より効率的なリソース構成プロファイリングのアプローチである。
karasuはコラボレータの集約ランタイム情報を使用して軽量なパフォーマンスモデルをトレーニングし、それらをアンサンブルメソッドに組み合わせ、構成検索空間の固有の知識を利用する。
さらに、カラスでは複数の目的を同時に最適化できる。
評価は,パブリッククラウド環境における多様なワークロード実行のパフォーマンスデータに基づく。
対象のジョブに共通する部分的な特徴のみを共有するプロファイリングの実行がほとんどない場合でも,カラスではパフォーマンス,検索時間,コストの観点から既存手法を大幅に向上できることを示す。
関連論文リスト
- A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Scalable and Sparsity-Aware Privacy-Preserving K-means Clustering with
Application to Fraud Detection [12.076075765740502]
本稿では,3つの特徴を持つ効率的な空間認識型K-meansのための新しいフレームワークを提案する。
まず、私たちのフレームワークはデータ非依存のオフラインフェーズと、より高速なオンラインフェーズに分けられます。
第二に、オンラインとオフラインの両方のフェーズにおけるベクトル化技術を活用します。
第3に,データ分散シナリオにスパース行列乗法を適用して効率を向上する。
論文 参考訳(メタデータ) (2022-08-12T02:58:26Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Towards General and Efficient Active Learning [20.888364610175987]
アクティブラーニングは、限られたアノテーション予算を利用するために最も有益なサンプルを選択することを目的としている。
本稿では,新しい汎用能動学習法(GEAL)を提案する。
提案手法は,同一モデルの単一パス推定を用いて,異なるデータセット上でデータ選択処理を行うことができる。
論文 参考訳(メタデータ) (2021-12-15T08:35:28Z) - On the Potential of Execution Traces for Batch Processing Workload
Optimization in Public Clouds [0.0]
本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。
一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
論文 参考訳(メタデータ) (2021-11-16T20:11:36Z) - Towards Federated Bayesian Network Structure Learning with Continuous
Optimization [14.779035801521717]
本稿では,ベイズネットワークの構造を推定するクロスサイロ・フェデレーション学習手法を提案する。
本研究では,連続最適化に基づく分散構造学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T14:36:05Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。