Fugu-MT 論文翻訳(概要): Neural-based Modeling for Performance Tuning of Spark Data Analytics

論文の概要: Neural-based Modeling for Performance Tuning of Spark Data Analytics

arxiv url: http://arxiv.org/abs/2101.08167v1
Date: Wed, 20 Jan 2021 14:58:55 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-22 01:14:53.030096
Title: Neural-based Modeling for Performance Tuning of Spark Data Analytics
Title（参考訳）: Sparkデータ分析の性能チューニングのためのニューラルベースモデリング
Authors: Khaled Zaouk, Fei Song, Chenghao Lyu and Yanlei Diao
Abstract要約: クラウドデータ分析のパフォーマンスモデリングは、クラウドのパフォーマンスチューニングやその他の重要な操作に不可欠です。最近のDeep Learning技術は、クラウドデータ分析の自動パフォーマンスモデリングのプロセスに依存している。私達の仕事は私達の条件に適する異なったモデリングの選択の詳しい調査を提供します。
参考スコア（独自算出の注目度）: 1.2251128138369254
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cloud data analytics has become an integral part of enterprise business operations for data-driven insight discovery. Performance modeling of cloud data analytics is crucial for performance tuning and other critical operations in the cloud. Traditional modeling techniques fail to adapt to the high degree of diversity in workloads and system behaviors in this domain. In this paper, we bring recent Deep Learning techniques to bear on the process of automated performance modeling of cloud data analytics, with a focus on Spark data analytics as representative workloads. At the core of our work is the notion of learning workload embeddings (with a set of desired properties) to represent fundamental computational characteristics of different jobs, which enable performance prediction when used together with job configurations that control resource allocation and other system knobs. Our work provides an in-depth study of different modeling choices that suit our requirements. Results of extensive experiments reveal the strengths and limitations of different modeling methods, as well as superior performance of our best performing method over a state-of-the-art modeling tool for cloud analytics.
Abstract（参考訳）: クラウドデータ分析は、データ駆動の洞察発見のためのエンタープライズビジネスオペレーションの不可欠な部分となっている。クラウドデータ分析のパフォーマンスモデリングは、クラウドのパフォーマンスチューニングやその他の重要な操作に不可欠である。従来のモデリングテクニックは、このドメインにおけるワークロードやシステムの振る舞いの多様さに適応できません。本稿では,Sparkデータ分析を代表的ワークロードとして重視した,クラウドデータ分析の自動パフォーマンスモデリングのプロセスに,近年のDeep Learning技術を導入します。私たちの研究の核心は、異なるジョブの基本的な計算特性を表現するために(望ましいプロパティのセットとともに)ワークロードの埋め込みを学習することであり、リソース割り当てやその他のシステムノブを制御するジョブ構成とともに、パフォーマンス予測を可能にします。私たちの研究は、要求に合致するさまざまなモデリング選択に関する詳細な研究を提供します。広範な実験の結果、異なるモデリング方法の長所と限界、そしてクラウド分析のための最先端のモデリングツールよりも最高の実行方法のパフォーマンスが明らかになった。

関連論文リスト

From Parameters to Performance: A Data-Driven Study on LLM Structure and Development [73.67759647072519]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めている。モデルスケールと能力の急激な成長にもかかわらず、構造構成がパフォーマンスに与える影響に関する体系的なデータ駆動の研究は依然として少ない。多様なオープンソースLLM構造を含む大規模データセットと,その性能を複数のベンチマークで比較した。
論文参考訳（メタデータ） (2025-09-14T12:20:39Z)
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳（メタデータ） (2025-06-24T17:04:23Z)
Analytics Modelling over Multiple Datasets using Vector Embeddings [0.3683202928838613]
本稿では、利用可能なデータセットからモデルを作成することにより、分析演算子の結果を推測する新しい手法を提案する。実験により,本フレームワークの予測性能と実行時間と,他の最先端のモデリング演算子フレームワークとの比較を行った。
論文参考訳（メタデータ） (2025-02-24T11:21:08Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
On Foundation Models for Dynamical Systems from Purely Synthetic Data [5.004576576202551]
基礎モデルは、様々な領域にわたる顕著な一般化、データ効率、ロバスト性を示してきた。これらのモデルは自然言語処理やコンピュータビジョンなどの分野で利用できるが、力学系には存在しない。合成データのみに基づくトランスフォーマーベース基礎モデルを事前学習することで,この問題に対処する。本研究は, 一般化, データ効率, 堅牢性の観点から, スペシャリストモデルを上回った力学系の基礎モデルの実現可能性を示すものである。
論文参考訳（メタデータ） (2024-11-30T08:34:10Z)
Theoretical Analysis of Learned Database Operations under Distribution Shift through Distribution Learnability [0.8594140167290097]
本稿では、動的データセットにおける学習モデルの性能に関する最初の理論的特徴について述べる。本結果は,学習モデルによって達成可能な新しい理論特性を示し,モデルの性能に限界を与える。本分析では,将来,学習したデータベース操作の分析の基礎となる,分散学習可能性フレームワークと新たな理論ツールを開発する。
論文参考訳（メタデータ） (2024-11-09T17:47:05Z)
Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。 8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文参考訳（メタデータ） (2024-08-17T10:37:07Z)
iNNspector: Visual, Interactive Deep Model Debugging [8.997568393450768]
本研究では,ディープラーニング実験のデータ空間を構造化する概念的枠組みを提案する。我々のフレームワークは設計の次元を捉え、このデータを探索可能かつ抽出可能にするためのメカニズムを提案する。我々は、ディープラーニング実験の追跡を可能にし、データのインタラクティブな可視化を提供するiNNspectorシステムを提案する。
論文参考訳（メタデータ） (2024-07-25T12:48:41Z)
The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks [15.569758991934934]
脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
論文参考訳（メタデータ） (2024-05-02T13:26:18Z)
Has Your Pretrained Model Improved? A Multi-head Posterior Based Approach [25.927323251675386]
我々は、世界的知識の源として各エンティティに関連するメタ機能を活用し、モデルからエンティティ表現を採用する。本稿では,これらの表現とメタ機能との整合性を,事前学習モデルの評価指標として用いることを提案する。提案手法の有効性は,関係データセットを用いたモデル,大規模言語モデル,画像モデルなど,様々な領域で実証されている。
論文参考訳（メタデータ） (2024-01-02T17:08:26Z)
Variational Exploration Module VEM: A Cloud-Native Optimization and Validation Tool for Geospatial Modeling and AI Workflows [0.0]
クラウドベースのデプロイメントは、これらのモデリングとAIのスケールアップに役立つ。我々は,クラウドにデプロイされたモデリングの最適化と検証を容易にする変分探索モジュールを開発した。モデルに依存しないモジュールの柔軟性と堅牢性は、実世界のアプリケーションを用いて実証される。
論文参考訳（メタデータ） (2023-11-26T23:07:00Z)
Fantastic Gains and Where to Find Them: On the Existence and Prospect of General Knowledge Transfer between Any Pretrained Model [74.62272538148245]
事前訓練されたモデルの任意のペアリングに対して、一方のモデルは他方では利用できない重要なデータコンテキストを抽出する。このような「補的」な知識を,性能劣化を伴わずに,あるモデルから別のモデルへ伝達できるかどうかを検討する。
論文参考訳（メタデータ） (2023-10-26T17:59:46Z)
Learning Objective-Specific Active Learning Strategies with Attentive Neural Processes [72.75421975804132]
学びアクティブラーニング(LAL)は、アクティブラーニング戦略自体を学ぶことを提案し、与えられた設定に適応できるようにする。能動学習問題の対称性と独立性を利用した新しい分類法を提案する。私たちのアプローチは、筋電図から学ぶことに基づいており、モデルに標準ではない目的に適応する能力を与えます。
論文参考訳（メタデータ） (2023-09-11T14:16:37Z)
Distributed intelligence on the Edge-to-Cloud Continuum: A systematic literature review [62.997667081978825]
このレビューは、現在利用可能な機械学習とデータ分析のための最先端ライブラリとフレームワークに関する包括的なビジョンを提供することを目的としている。現在利用可能なEdge-to-Cloud Continuumに関する実験的な研究のための、主要なシミュレーション、エミュレーション、デプロイメントシステム、テストベッドも調査されている。
論文参考訳（メタデータ） (2022-04-29T08:06:05Z)
Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-07-29T11:57:38Z)
How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文参考訳（メタデータ） (2020-05-25T12:13:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。