論文の概要: Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation
- arxiv url: http://arxiv.org/abs/2108.12211v1
- Date: Fri, 27 Aug 2021 10:21:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-30 14:03:31.872862
- Title: Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation
- Title(参考訳): enel: グラフ伝搬を用いた分散データフロージョブのコンテキスト対応動的スケーリング
- Authors: Dominik Scheinert, Houkun Zhu, Lauritz Thamsen, Morgan K. Geldenhuys,
Jonathan Will, Alexander Acker, Odej Kao
- Abstract要約: 本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
- 参考スコア(独自算出の注目度): 52.9168275057997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed dataflow systems like Spark and Flink enable the use of clusters
for scalable data analytics. While runtime prediction models can be used to
initially select appropriate cluster resources given target runtimes, the
actual runtime performance of dataflow jobs depends on several factors and
varies over time. Yet, in many situations, dynamic scaling can be used to meet
formulated runtime targets despite significant performance variance.
This paper presents Enel, a novel dynamic scaling approach that uses message
propagation on an attributed graph to model dataflow jobs and, thus, allows for
deriving effective rescaling decisions. For this, Enel incorporates descriptive
properties that capture the respective execution context, considers statistics
from individual dataflow tasks, and propagates predictions through the job
graph to eventually find an optimized new scale-out. Our evaluation of Enel
with four iterative Spark jobs shows that our approach is able to identify
effective rescaling actions, reacting for instance to node failures, and can be
reused across different execution contexts.
- Abstract(参考訳): SparkやFlinkといった分散データフローシステムは、スケーラブルなデータ分析にクラスタを使用することができる。
実行時予測モデルは、最初に指定された適切なクラスタリソースを選択するために使用できるが、データフロージョブの実際の実行時パフォーマンスは、いくつかの要因に依存し、時間とともに変化する。
しかし、多くの状況において、動的スケーリングは、大きなパフォーマンスのばらつきにもかかわらず、定式化されたランタイムターゲットを満たすために使用できる。
本稿では,データフロージョブをモデル化するために属性グラフ上でメッセージの伝搬を利用して,効率的な再スケーリング決定の導出を可能にする,新しい動的スケーリング手法であるEnelを提案する。
このために、enelは各実行コンテキストをキャプチャする記述的プロパティを取り入れ、個々のデータフロータスクからの統計を考慮し、ジョブグラフを通じて予測を伝搬し、最終的に最適化された新しいスケールアウトを見つける。
4つの反復的なsparkジョブによるenelの評価からは、効果的なリスケーリングアクションを特定し、例えばノード障害に反応し、さまざまな実行コンテキストで再利用することが可能であることが分かりました。
関連論文リスト
- Adapt-$\infty$: Scalable Lifelong Multimodal Instruction Tuning via Dynamic Data Selection [89.42023974249122]
Adapt-$infty$は、Lifelong Instruction Tuningの新しいマルチウェイおよびアダプティブデータ選択アプローチである。
勾配に基づくサンプルベクトルをグループ化して擬似スキルクラスタを構築する。
セレクタエキスパートのプールから各スキルクラスタの最高のパフォーマンスデータセレクタを選択する。
論文 参考訳(メタデータ) (2024-10-14T15:48:09Z) - Localized RETE for Incremental Graph Queries [1.3858051019755282]
局所的かつ完全にインクリメンタルな実行グラフクエリを可能にする拡張セマンティクスを提案する。
提案手法は, メモリ消費や実行時間に関する性能を良好に向上させることができるが, 顕著な線形オーバーヘッドが生じる可能性がある。
論文 参考訳(メタデータ) (2024-05-02T10:00:37Z) - TimeGraphs: Graph-based Temporal Reasoning [64.18083371645956]
TimeGraphsは階層的時間グラフとして動的相互作用を特徴付ける新しいアプローチである。
提案手法は,コンパクトなグラフベース表現を用いて相互作用をモデル化し,多種多様な時間スケールでの適応推論を可能にする。
我々は,サッカーシミュレータ,抵抗ゲーム,MOMA人間活動データセットなど,複雑でダイナミックなエージェントインタラクションを持つ複数のデータセット上でTimeGraphsを評価する。
論文 参考訳(メタデータ) (2024-01-06T06:26:49Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Performance Scaling via Optimal Transport: Enabling Data Selection from
Partially Revealed Sources [9.359395812292291]
本稿では,モデル性能を予測し,将来的なデータソースの部分的なサンプルに基づいたデータ選択決定を支援する or> というフレームワークを提案する。
or> 既存のパフォーマンススケーリングアプローチを大幅に改善し,性能予測の精度と,性能構築に伴う計算コストを両立させる。
また,他の市販ソリューションと比較して,データ選択効率の差は広い。
論文 参考訳(メタデータ) (2023-07-05T17:33:41Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z) - Task-Oriented Dialogue as Dataflow Synthesis [158.77123205487334]
本稿では,対話状態がデータフローグラフとして表現されるタスク指向対話へのアプローチについて述べる。
対話エージェントは、各ユーザの発話を、このグラフを拡張するプログラムにマッピングする。
我々は、イベント、天気、場所、人々に関する複雑な対話を特徴とする、新しいデータセットであるSMCalFlowを紹介した。
論文 参考訳(メタデータ) (2020-09-24T00:35:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。