論文の概要: Neural-based Modeling for Performance Tuning of Spark Data Analytics
- arxiv url: http://arxiv.org/abs/2101.08167v1
- Date: Wed, 20 Jan 2021 14:58:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 01:14:53.030096
- Title: Neural-based Modeling for Performance Tuning of Spark Data Analytics
- Title(参考訳): Sparkデータ分析の性能チューニングのためのニューラルベースモデリング
- Authors: Khaled Zaouk, Fei Song, Chenghao Lyu and Yanlei Diao
- Abstract要約: クラウドデータ分析のパフォーマンスモデリングは、クラウドのパフォーマンスチューニングやその他の重要な操作に不可欠です。
最近のDeep Learning技術は、クラウドデータ分析の自動パフォーマンスモデリングのプロセスに依存している。
私達の仕事は私達の条件に適する異なったモデリングの選択の詳しい調査を提供します。
- 参考スコア(独自算出の注目度): 1.2251128138369254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cloud data analytics has become an integral part of enterprise business
operations for data-driven insight discovery. Performance modeling of cloud
data analytics is crucial for performance tuning and other critical operations
in the cloud. Traditional modeling techniques fail to adapt to the high degree
of diversity in workloads and system behaviors in this domain. In this paper,
we bring recent Deep Learning techniques to bear on the process of automated
performance modeling of cloud data analytics, with a focus on Spark data
analytics as representative workloads. At the core of our work is the notion of
learning workload embeddings (with a set of desired properties) to represent
fundamental computational characteristics of different jobs, which enable
performance prediction when used together with job configurations that control
resource allocation and other system knobs. Our work provides an in-depth study
of different modeling choices that suit our requirements. Results of extensive
experiments reveal the strengths and limitations of different modeling methods,
as well as superior performance of our best performing method over a
state-of-the-art modeling tool for cloud analytics.
- Abstract(参考訳): クラウドデータ分析は、データ駆動の洞察発見のためのエンタープライズビジネスオペレーションの不可欠な部分となっている。
クラウドデータ分析のパフォーマンスモデリングは、クラウドのパフォーマンスチューニングやその他の重要な操作に不可欠である。
従来のモデリングテクニックは、このドメインにおけるワークロードやシステムの振る舞いの多様さに適応できません。
本稿では,Sparkデータ分析を代表的ワークロードとして重視した,クラウドデータ分析の自動パフォーマンスモデリングのプロセスに,近年のDeep Learning技術を導入します。
私たちの研究の核心は、異なるジョブの基本的な計算特性を表現するために(望ましいプロパティのセットとともに)ワークロードの埋め込みを学習することであり、リソース割り当てやその他のシステムノブを制御するジョブ構成とともに、パフォーマンス予測を可能にします。
私たちの研究は、要求に合致するさまざまなモデリング選択に関する詳細な研究を提供します。
広範な実験の結果、異なるモデリング方法の長所と限界、そしてクラウド分析のための最先端のモデリングツールよりも最高の実行方法のパフォーマンスが明らかになった。
関連論文リスト
- Distributed intelligence on the Edge-to-Cloud Continuum: A systematic
literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。
現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文 参考訳(メタデータ) (2022-04-29T08:06:05Z) - A Physics-Guided Neural Operator Learning Approach to Model Biological
Tissues from Digital Image Correlation Measurements [3.65211252467094]
本稿では, 生体組織モデリングにおけるデータ駆動型相関について述べる。これは, 未知の負荷シナリオ下でのデジタル画像相関(DIC)測定に基づいて変位場を予測することを目的としている。
ブタ三尖弁リーフレット上の多軸延伸プロトコルのDIC変位追跡測定から材料データベースを構築した。
材料応答は、負荷から結果の変位場への解演算子としてモデル化され、材料特性はデータから暗黙的に学習され、自然にネットワークパラメータに埋め込まれる。
論文 参考訳(メタデータ) (2022-04-01T04:56:41Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [62.774208717294805]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Learning Dynamics Models for Model Predictive Agents [28.063080817465934]
モデルに基づく強化学習は、データからテクトダイナミックスモデルを学習し、そのモデルを使用して振る舞いを最適化する。
本稿では, 動的モデル学習における設計選択の役割を, 基礎構造モデルとの比較により明らかにすることを目的としている。
論文 参考訳(メタデータ) (2021-09-29T09:50:25Z) - Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across
Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。
我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-07-29T11:57:38Z) - A Topological-Framework to Improve Analysis of Machine Learning Model
Performance [5.3893373617126565]
本稿では、データセットをモデルが動作する「空間」として扱う機械学習モデルを評価するためのフレームワークを提案する。
本稿では,各サブポピュレーション間でのモデル性能の保存と解析に有用なトポロジカルデータ構造であるプレシーブについて述べる。
論文 参考訳(メタデータ) (2021-07-09T23:11:13Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Structured learning of rigid-body dynamics: A survey and unified view
from a robotics perspective [5.597839822252915]
剛体力学とデータ駆動モデリング技術を組み合わせた回帰モデルについて検討した。
我々は、ニューラルネットワークやガウス過程などのデータ駆動回帰モデルと分析モデル先行モデルの組み合わせに関する統一的な見解を提供する。
論文 参考訳(メタデータ) (2020-12-11T11:26:48Z) - Models, Pixels, and Rewards: Evaluating Design Trade-offs in Visual
Model-Based Reinforcement Learning [109.74041512359476]
視覚的MBRLアルゴリズムにおける予測モデルの設計決定について検討する。
潜在空間の使用など、しばしば重要と見なされる設計上の決定は、タスクのパフォーマンスにはほとんど影響しないことが分かりました。
我々は,この現象が探索とどのように関係しているか,および標準ベンチマークにおける下位スコーリングモデルのいくつかが,同じトレーニングデータでトレーニングされた場合のベストパフォーマンスモデルと同等の性能を発揮するかを示す。
論文 参考訳(メタデータ) (2020-12-08T18:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。