論文の概要: On the Potential of Execution Traces for Batch Processing Workload
Optimization in Public Clouds
- arxiv url: http://arxiv.org/abs/2111.08759v1
- Date: Tue, 16 Nov 2021 20:11:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-18 15:21:11.027048
- Title: On the Potential of Execution Traces for Batch Processing Workload
Optimization in Public Clouds
- Title(参考訳): パブリッククラウドにおけるバッチ処理負荷最適化のための実行トレースの可能性について
- Authors: Dominik Scheinert, Alireza Alamgiralem, Jonathan Bader, Jonathan Will,
Thorsten Wittkopp, Lauritz Thamsen
- Abstract要約: 本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。
一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the growing amount of data, data processing workloads and the management
of their resource usage becomes increasingly important. Since managing a
dedicated infrastructure is in many situations infeasible or uneconomical,
users progressively execute their respective workloads in the cloud. As the
configuration of workloads and resources is often challenging, various methods
have been proposed that either quickly profile towards a good configuration or
determine one based on data from previous runs. Still, performance data to
train such methods is often lacking and must be costly collected.
In this paper, we propose a collaborative approach for sharing anonymized
workload execution traces among users, mining them for general patterns, and
exploiting clusters of historical workloads for future optimizations. We
evaluate our prototype implementation for mining workload execution graphs on a
publicly available trace dataset and demonstrate the predictive value of
workload clusters determined through traces only.
- Abstract(参考訳): データ量の増加に伴い、データ処理ワークロードとリソース利用の管理がますます重要になっています。
専用のインフラストラクチャを管理することは、多くの状況において実現不可能あるいは非経済的であるため、ユーザは徐々にそれぞれのワークロードをクラウドで実行します。
ワークロードやリソースの設定が難しい場合が多いため、適切な設定に迅速にプロファイルするか、以前の実行からのデータに基づいて判断する、さまざまな方法が提案されている。
それでも、そのようなメソッドをトレーニングするためのパフォーマンスデータは、しばしば欠落しており、コストがかかる。
本稿では,匿名化されたワークロード実行トレースをユーザ間で共有し,一般的なパターンをマイニングし,過去のワークロードのクラスタを将来の最適化のために活用するための協調的アプローチを提案する。
公開されているトレースデータセット上でワークロード実行グラフをマイニングするためのプロトタイプ実装を評価し,トレースのみを用いて決定されたワークロードクラスタの予測値を示す。
関連論文リスト
- Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。
また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。
我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文 参考訳(メタデータ) (2024-10-10T12:41:19Z) - Karasu: A Collaborative Approach to Efficient Cluster Configuration for
Big Data Analytics [3.779250782197386]
Karasuは、より効率的なリソース構成プロファイリングへのアプローチである。
同様のインフラストラクチャ、フレームワーク、アルゴリズム、データセットを扱うユーザ間のデータ共有を促進する。
カラスでは, 性能, 検索時間, コストの観点から, 既存の手法を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2023-08-22T21:14:57Z) - Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。
最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。
このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文 参考訳(メタデータ) (2023-03-02T17:32:11Z) - Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。
過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。
本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:19:05Z) - Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data
Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文 参考訳(メタデータ) (2022-03-02T19:57:32Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - Evaluation of Load Prediction Techniques for Distributed Stream
Processing [0.0]
分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。
DSPシステムにイベントが到着する速度は、時間とともに大きく変化する可能性がある。
入ってくるワークロードの事前知識は、リソース管理と最適化に対する積極的なアプローチを可能にする。
論文 参考訳(メタデータ) (2021-08-10T15:25:32Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z) - Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。
本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文 参考訳(メタデータ) (2021-07-19T02:55:48Z) - Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。
現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。
本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文 参考訳(メタデータ) (2020-06-25T14:11:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。