論文の概要: Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts
- arxiv url: http://arxiv.org/abs/2107.13921v1
- Date: Thu, 29 Jul 2021 11:57:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-30 13:08:44.384438
- Title: Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts
- Title(参考訳): Bellamy: コンテキストを越えた分散データフロージョブのパフォーマンスモデルの使用
- Authors: Dominik Scheinert, Lauritz Thamsen, Houkun Zhu, Jonathan Will,
Alexander Acker, Thorsten Wittkopp, Odej Kao
- Abstract要約: 本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 52.9168275057997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distributed dataflow systems enable the use of clusters for scalable data
analytics. However, selecting appropriate cluster resources for a processing
job is often not straightforward. Performance models trained on historical
executions of a concrete job are helpful in such situations, yet they are
usually bound to a specific job execution context (e.g. node type, software
versions, job parameters) due to the few considered input parameters. Even in
case of slight context changes, such supportive models need to be retrained and
cannot benefit from historical execution data from related contexts.
This paper presents Bellamy, a novel modeling approach that combines
scale-outs, dataset sizes, and runtimes with additional descriptive properties
of a dataflow job. It is thereby able to capture the context of a job
execution. Moreover, Bellamy is realizing a two-step modeling approach. First,
a general model is trained on all the available data for a specific scalable
analytics algorithm, hereby incorporating data from different contexts.
Subsequently, the general model is optimized for the specific situation at
hand, based on the available data for the concrete context. We evaluate our
approach on two publicly available datasets consisting of execution data from
various dataflow jobs carried out in different environments, showing that
Bellamy outperforms state-of-the-art methods.
- Abstract(参考訳): 分散データフローシステムは、スケーラブルなデータ分析にクラスタを利用することができる。
しかし、処理ジョブに適したクラスタリソースを選択するのは簡単ではないことが多い。
具体的なジョブの履歴実行に基づいてトレーニングされたパフォーマンスモデルは、このような状況では有効であるが、通常は特定のジョブ実行コンテキスト(例えば、)に縛られる。
ノードタイプ、ソフトウェアバージョン、ジョブパラメータ) 数少ない考慮された入力パラメータのため。
わずかなコンテキスト変更であっても、そのようなサポートモデルの再トレーニングが必要であり、関連するコンテキストからの過去の実行データから利益を得ることはできない。
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
これにより、ジョブ実行のコンテキストをキャプチャできる。
さらに、bellamyは2段階モデリングアプローチを実現している。
まず、一般的なモデルは、特定のスケーラブルな分析アルゴリズムのために利用可能なすべてのデータに基づいてトレーニングされます。
その後、具体的コンテキストの利用可能なデータに基づいて、特定の状況に対して汎用モデルを最適化する。
我々は,異なる環境で実行されるさまざまなデータフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価する。
関連論文リスト
- An Integrated Data Processing Framework for Pretraining Foundation
Models [61.66552412677197]
研究者や実践者は、しばしば異なるソースからデータセットを手動でキュレートする必要がある。
本稿では,処理モジュールと解析モジュールを統合したデータ処理フレームワークを提案する。
提案されたフレームワークは使いやすく、柔軟です。
論文 参考訳(メタデータ) (2024-02-26T07:22:51Z) - DsDm: Model-Aware Dataset Selection with Datamodels [81.01744199870043]
標準的なプラクティスは、データ品質という人間の考え方にマッチする例をフィルタリングすることです。
質の高い"データソースとの類似性に応じた選択は、ランダムに選択するデータに比べてパフォーマンスが向上しない(さらに傷つく)可能性がある。
我々のフレームワークは、データ品質に関する手作業による概念を回避し、学習プロセスがターゲットタスクの予測にデータポイントをトレーニングする方法を明確にモデル化する。
論文 参考訳(メタデータ) (2024-01-23T17:22:00Z) - Entity Matching using Large Language Models [4.94950858749529]
最先端のエンティティマッチング手法は、BERTやRoBERTaのような事前訓練された言語モデル(PLM)に依存している。
エンティティマッチングにおけるこれらのモデルの2つの大きな欠点は、(i)モデルがタスク固有のトレーニングデータを必要とすることと、(ii)微調整されたモデルが、アウト・オブ・ディストリビューション・エンティティに関して堅牢でないことである。
PLMベースのマーカに代えて,よりタスク依存の訓練データとして,生成的大規模言語モデル(LLM)をエンティティマッチングに使用することを検討する。
論文 参考訳(メタデータ) (2023-10-17T13:12:32Z) - RetICL: Sequential Retrieval of In-Context Examples with Reinforcement
Learning [77.34726150561087]
In-Context Learning (RetICL) のための検索式を提案する。
我々は、マルコフ決定プロセスとして逐次サンプル選択の問題を定義し、LSTMを用いてサンプルレトリバーモデルを設計し、近似ポリシー最適化を用いてそれを訓練する。
論文 参考訳(メタデータ) (2023-05-23T20:15:56Z) - A Case for Dataset Specific Profiling [0.9023847175654603]
データ駆動科学は、科学的な発見が、リッチで規律固有のデータセットに対する計算AIモデルの実行に依存する、新興パラダイムである。
現代的な機械学習フレームワークを使用することで、誰でも科学的応用を可能にするデータに隠された概念を明らかにする計算モデルを開発し、実行することができる。
重要で広く使われているデータセットでは、データセットに対して実行できるすべての計算モデルのパフォーマンスを計算することは、クラウドリソースの点でコストを禁ずる。
論文 参考訳(メタデータ) (2022-08-01T18:38:05Z) - On the Potential of Execution Traces for Batch Processing Workload
Optimization in Public Clouds [0.0]
本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。
一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
論文 参考訳(メタデータ) (2021-11-16T20:11:36Z) - Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using
Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。
Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文 参考訳(メタデータ) (2021-08-27T10:21:08Z) - Spectral goodness-of-fit tests for complete and partial network data [1.7188280334580197]
我々は、最近のランダム行列理論の結果を用いて、ダイアディックデータに対する一般的な適合性テスト(英語版)を導出する。
提案手法は,特定の関心モデルに適用された場合,パラメータ選択の単純かつ高速な方法であることを示す。
提案手法は, コミュニティ検出アルゴリズムの改良に繋がる。
論文 参考訳(メタデータ) (2021-06-17T17:56:30Z) - Multi-layer Optimizations for End-to-End Data Analytics [71.05611866288196]
代替アプローチを実現するフレームワークであるIFAQ(Iterative Functional Aggregate Queries)を紹介する。
IFAQは、特徴抽出クエリと学習タスクを、IFAQのドメイン固有言語で与えられた1つのプログラムとして扱う。
IFAQ の Scala 実装が mlpack,Scikit,特殊化を数桁で上回り,線形回帰木モデルや回帰木モデルを複数の関係データセット上で処理可能であることを示す。
論文 参考訳(メタデータ) (2020-01-10T16:14:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。