論文の概要: Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts
- arxiv url: http://arxiv.org/abs/2107.13921v1
- Date: Thu, 29 Jul 2021 11:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:08:44.384438
- Title: Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts
- Title(参考訳): Bellamy: コンテキストを越えた分散データフロージョブのパフォーマンスモデルの使用
- Authors: Dominik Scheinert, Lauritz Thamsen, Houkun Zhu, Jonathan Will,
Alexander Acker, Thorsten Wittkopp, Odej Kao
- Abstract要約: 本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 52.9168275057997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed dataflow systems enable the use of clusters for scalable data
analytics. However, selecting appropriate cluster resources for a processing
job is often not straightforward. Performance models trained on historical
executions of a concrete job are helpful in such situations, yet they are
usually bound to a specific job execution context (e.g. node type, software
versions, job parameters) due to the few considered input parameters. Even in
case of slight context changes, such supportive models need to be retrained and
cannot benefit from historical execution data from related contexts.
This paper presents Bellamy, a novel modeling approach that combines
scale-outs, dataset sizes, and runtimes with additional descriptive properties
of a dataflow job. It is thereby able to capture the context of a job
execution. Moreover, Bellamy is realizing a two-step modeling approach. First,
a general model is trained on all the available data for a specific scalable
analytics algorithm, hereby incorporating data from different contexts.
Subsequently, the general model is optimized for the specific situation at
hand, based on the available data for the concrete context. We evaluate our
approach on two publicly available datasets consisting of execution data from
various dataflow jobs carried out in different environments, showing that
Bellamy outperforms state-of-the-art methods.
- Abstract(参考訳): 分散データフローシステムは、スケーラブルなデータ分析にクラスタを利用することができる。
しかし、処理ジョブに適したクラスタリソースを選択するのは簡単ではないことが多い。
具体的なジョブの履歴実行に基づいてトレーニングされたパフォーマンスモデルは、このような状況では有効であるが、通常は特定のジョブ実行コンテキスト(例えば、)に縛られる。
ノードタイプ、ソフトウェアバージョン、ジョブパラメータ) 数少ない考慮された入力パラメータのため。
わずかなコンテキスト変更であっても、そのようなサポートモデルの再トレーニングが必要であり、関連するコンテキストからの過去の実行データから利益を得ることはできない。
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
これにより、ジョブ実行のコンテキストをキャプチャできる。
さらに、bellamyは2段階モデリングアプローチを実現している。
まず、一般的なモデルは、特定のスケーラブルな分析アルゴリズムのために利用可能なすべてのデータに基づいてトレーニングされます。
その後、具体的コンテキストの利用可能なデータに基づいて、特定の状況に対して汎用モデルを最適化する。
我々は,異なる環境で実行されるさまざまなデータフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価する。
関連論文リスト
- Target-Aware Language Modeling via Granular Data Sampling [25.957424920194914]
言語モデルの事前訓練は、一般的に幅広いユースケースをターゲットにし、多様なソースからのデータを取り込む。
コスト効率が高く簡単なアプローチは、低次元のデータ特徴をサンプリングすることである。
事前学習したモデルはRefinedWebの全データと同等に動作し、125Mから1.5Bまでのモデルサイズに対してランダムに選択されたサンプルより優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-23T04:52:17Z) - UQE: A Query Engine for Unstructured Databases [71.49289088592842]
構造化されていないデータ分析を可能にするために,大規模言語モデルの可能性を検討する。
本稿では,非構造化データ収集からの洞察を直接問合せ,抽出するUniversal Query Engine (UQE)を提案する。
論文 参考訳(メタデータ) (2024-06-23T06:58:55Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - An Integrated Data Processing Framework for Pretraining Foundation Models [57.47845148721817]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - On the Potential of Execution Traces for Batch Processing Workload
Optimization in Public Clouds [0.0]
本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。
一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
論文 参考訳(メタデータ) (2021-11-16T20:11:36Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - Spectral goodness-of-fit tests for complete and partial network data [1.7188280334580197]
我々は、最近のランダム行列理論の結果を用いて、ダイアディックデータに対する一般的な適合性テスト(英語版)を導出する。
提案手法は,特定の関心モデルに適用された場合,パラメータ選択の単純かつ高速な方法であることを示す。
提案手法は, コミュニティ検出アルゴリズムの改良に繋がる。
論文 参考訳(メタデータ) (2021-06-17T17:56:30Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。