Fugu-MT 論文翻訳(概要): Evaluation of Load Prediction Techniques for Distributed Stream Processing

論文の概要: Evaluation of Load Prediction Techniques for Distributed Stream Processing

arxiv url: http://arxiv.org/abs/2108.04749v1
Date: Tue, 10 Aug 2021 15:25:32 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-11 14:16:55.616147
Title: Evaluation of Load Prediction Techniques for Distributed Stream Processing
Title（参考訳）: 分散ストリーム処理における負荷予測手法の評価
Authors: Kordian Gontarska, Morgan Geldenhuys, Dominik Scheinert, Philipp Wiesner, Andreas Polze, Lauritz Thamsen
Abstract要約: 分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。 DSPシステムにイベントが到着する速度は、時間とともに大きく変化する可能性がある。入ってくるワークロードの事前知識は、リソース管理と最適化に対する積極的なアプローチを可能にする。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Distributed Stream Processing (DSP) systems enable processing large streams of continuous data to produce results in near to real time. They are an essential part of many data-intensive applications and analytics platforms. The rate at which events arrive at DSP systems can vary considerably over time, which may be due to trends, cyclic, and seasonal patterns within the data streams. A priori knowledge of incoming workloads enables proactive approaches to resource management and optimization tasks such as dynamic scaling, live migration of resources, and the tuning of configuration parameters during run-times, thus leading to a potentially better Quality of Service. In this paper we conduct a comprehensive evaluation of different load prediction techniques for DSP jobs. We identify three use-cases and formulate requirements for making load predictions specific to DSP jobs. Automatically optimized classical and Deep Learning methods are being evaluated on nine different datasets from typical DSP domains, i.e. the IoT, Web 2.0, and cluster monitoring. We compare model performance with respect to overall accuracy and training duration. Our results show that the Deep Learning methods provide the most accurate load predictions for the majority of the evaluated datasets.
Abstract（参考訳）: 分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。それらは、多くのデータ集約型アプリケーションと分析プラットフォームの重要な部分です。 dspシステムにイベントが到着する速度は、データストリーム内のトレンド、循環、季節パターンによって、時間とともに大きく変化する可能性がある。入ってくるワークロードの事前知識によって、動的スケーリング、リソースのライブマイグレーション、実行時の構成パラメータのチューニングなど、リソース管理や最適化タスクへの積極的なアプローチが可能になるため、サービスのクオリティが向上する可能性がある。本稿では, DSPジョブに対する負荷予測手法の総合評価を行う。 DSPジョブに特有の負荷予測を行うための3つのユースケースと要件を定式化する。古典的およびディープラーニングの自動最適化手法は、典型的なDSPドメインから9つの異なるデータセットで評価されている。 IoT、Web 2.0、クラスタ監視。モデルの性能を総合的精度とトレーニング期間と比較する。その結果,深層学習手法は,評価されたデータセットの大部分に対して,最も正確な負荷予測を提供することがわかった。

関連論文リスト

Meta-learning to Address Data Shift in Time Series Classification [0.0]
従来のディープラーニング(TDL)モデルは、トレーニングとテストデータが同じ分布を共有する場合、うまく機能する。実世界のデータのダイナミックな性質は、TDLモデルを高速な性能劣化を招き、コストのかかる緩和と非効率な再トレーニングを必要とする。本稿では、TDLと微調整および最適化に基づくメタラーニングアルゴリズムを体系的に比較し、データシフトに対処する能力を評価する。
論文参考訳（メタデータ） (2026-01-13T22:38:43Z)
Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文参考訳（メタデータ） (2025-09-01T10:04:20Z)
Using Scaling Laws for Data Source Utility Estimation in Domain-Specific Pre-Training [4.90288999217624]
基礎モデルトレーニングにおいて,ドメイン固有のデータセット構築を最適化するためのフレームワークを提案する。我々のアプローチは、スケーリング法則を推定するために、通常の点推定アプローチ、いわゆるマイクロアニール(micro-annealing)を拡張します。我々は、70億のパラメータを持つ事前学習モデルの実験を通して、我々のアプローチを検証する。
論文参考訳（メタデータ） (2025-07-29T21:56:45Z)
Towards a Proactive Autoscaling Framework for Data Stream Processing at the Edge using GRU and Transfer Learning [0.0]
実世界のDSPデータセットと合成DSPデータセットを用いて,GRUニューラルネットワークが上流の負荷を予測する方法を示す。転送学習フレームワークは、予測モデルをオンラインストリーム処理システムに統合する。負荷予測のための軽量GRUモデルは、実世界のデータセット上で最大1.3%のSMAPE値を記録した。
論文参考訳（メタデータ） (2025-07-19T12:47:50Z)
DCP: Learning Accelerator Dataflow for Neural Network via Propagation [52.06154296196845]
この研究は、DNN層の最適なデータフローを人間の努力なしに数秒で自動的に見つけるために、Dataflow Code Propagation (DCP)と呼ばれる効率的なデータ中心のアプローチを提案する。 DCPは、様々な最適化目標を最小化するために、望ましい勾配方向に向けてデータフローコードを効率的に更新する神経予測器を学習する。例えば、追加のトレーニングデータを使用しないDCPは、数千のサンプルを使用して完全な検索を行うGAMAメソッドを超越している。
論文参考訳（メタデータ） (2024-10-09T05:16:44Z)
Advancing Enterprise Spatio-Temporal Forecasting Applications: Data Mining Meets Instruction Tuning of Language Models For Multi-modal Time Series Analysis in Low-Resource Settings [0.0]
パティオ時間予測は輸送、物流、サプライチェーン管理において重要である。本稿では,従来の予測手法の強みと小言語モデルの命令チューニングを融合した動的マルチモーダル手法を提案する。我々のフレームワークは、推論速度とデータプライバシ/セキュリティを維持しながら、計算とメモリの要求を低減したオンプレミスのカスタマイズを可能にする。
論文参考訳（メタデータ） (2024-08-24T16:32:58Z)
Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文参考訳（メタデータ） (2024-04-01T00:21:11Z)
LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。 LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文参考訳（メタデータ） (2024-02-06T19:18:04Z)
Understand Data Preprocessing for Effective End-to-End Training of Deep Neural Networks [8.977436072381973]
生データと記録ファイルのどちらを用いた2つの主要なデータ前処理手法の性能評価実験を行った。我々は、潜在的な原因を特定し、様々な最適化方法を実行し、その長所と短所を提示する。
論文参考訳（メタデータ） (2023-04-18T11:57:38Z)
Where Is My Training Bottleneck? Hidden Trade-Offs in Deep Learning Preprocessing Pipelines [77.45213180689952]
ディープラーニングにおける前処理パイプラインは、トレーニングプロセスを忙しくするための十分なデータスループットの提供を目的としている。エンドツーエンドのディープラーニングパイプラインのためのデータセットを効率的に準備する新たな視点を導入する。チューニングされていないシステムに比べてスループットが3倍から13倍に向上する。
論文参考訳（メタデータ） (2022-02-17T14:31:58Z)
Dynamic Network-Assisted D2D-Aided Coded Distributed Learning [59.29409589861241]
本稿では,デバイス間のロードバランシングのための新しいデバイス・ツー・デバイス(D2D)支援型符号化学習手法(D2D-CFL)を提案する。最小処理時間を達成するための最適圧縮率を導出し、収束時間との接続を確立する。提案手法は,ユーザが継続的にトレーニングデータを生成するリアルタイム協調アプリケーションに有用である。
論文参考訳（メタデータ） (2021-11-26T18:44:59Z)
On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds [0.0]
本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
論文参考訳（メタデータ） (2021-11-16T20:11:36Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
One Backward from Ten Forward, Subsampling for Large-Scale Deep Learning [35.0157090322113]
大規模機械学習システムは、しばしばプロダクション環境からの膨大なデータで継続的に訓練される。ストリーミングデータの量は、リアルタイムのトレーニングサブシステムにとって重要な課題であり、アドホックサンプリングが標準のプラクティスである。我々は,これらの前方パスからインスタンス毎の情報量を一定に記録することを提案する。追加情報は、前方および後方のパスに参加するデータインスタンスの選択を測定可能に改善します。
論文参考訳（メタデータ） (2021-04-27T11:29:02Z)
Online feature selection for rapid, low-overhead learning in networked systems [0.0]
我々は、多数の利用可能なデータソースから小さな機能セットを選択する、OSFSと呼ばれるオンラインアルゴリズムを提案する。 OSFSは、データソース数を桁違いに削減するために、数百の計測を必要とする。
論文参考訳（メタデータ） (2020-10-28T12:00:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。