Fugu-MT 論文翻訳(概要): On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds

論文の概要: On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds

arxiv url: http://arxiv.org/abs/2111.08759v1
Date: Tue, 16 Nov 2021 20:11:36 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-18 15:21:11.027048
Title: On the Potential of Execution Traces for Batch Processing Workload Optimization in Public Clouds
Title（参考訳）: パブリッククラウドにおけるバッチ処理負荷最適化のための実行トレースの可能性について
Authors: Dominik Scheinert, Alireza Alamgiralem, Jonathan Bader, Jonathan Will, Thorsten Wittkopp, Lauritz Thamsen
Abstract要約: 本稿では,匿名化されたワークロード実行トレースをユーザ間で共有するための協調的アプローチを提案する。一般的なパターンとしてマイニングし、将来の最適化のために過去のワークロードのクラスタを活用します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: With the growing amount of data, data processing workloads and the management of their resource usage becomes increasingly important. Since managing a dedicated infrastructure is in many situations infeasible or uneconomical, users progressively execute their respective workloads in the cloud. As the configuration of workloads and resources is often challenging, various methods have been proposed that either quickly profile towards a good configuration or determine one based on data from previous runs. Still, performance data to train such methods is often lacking and must be costly collected. In this paper, we propose a collaborative approach for sharing anonymized workload execution traces among users, mining them for general patterns, and exploiting clusters of historical workloads for future optimizations. We evaluate our prototype implementation for mining workload execution graphs on a publicly available trace dataset and demonstrate the predictive value of workload clusters determined through traces only.
Abstract（参考訳）: データ量の増加に伴い、データ処理ワークロードとリソース利用の管理がますます重要になっています。専用のインフラストラクチャを管理することは、多くの状況において実現不可能あるいは非経済的であるため、ユーザは徐々にそれぞれのワークロードをクラウドで実行します。ワークロードやリソースの設定が難しい場合が多いため、適切な設定に迅速にプロファイルするか、以前の実行からのデータに基づいて判断する、さまざまな方法が提案されている。それでも、そのようなメソッドをトレーニングするためのパフォーマンスデータは、しばしば欠落しており、コストがかかる。本稿では,匿名化されたワークロード実行トレースをユーザ間で共有し,一般的なパターンをマイニングし,過去のワークロードのクラスタを将来の最適化のために活用するための協調的アプローチを提案する。公開されているトレースデータセット上でワークロード実行グラフをマイニングするためのプロトタイプ実装を評価し,トレースのみを用いて決定されたワークロードクラスタの予測値を示す。

関連論文リスト

Sequential Data Augmentation for Generative Recommendation [54.765568804267645]
生成的レコメンデーションはパーソナライズされたシステムにおいて重要な役割を担い、ユーザの将来のインタラクションを過去の行動シーケンスから予測する。データ拡張(Data augmentation)は、ユーザインタラクション履歴からトレーニングデータを構築するプロセスである。我々は、サンプリングプロセスとして拡張をモデル化し、その結果のトレーニング分布の柔軟な制御を可能にする、原則化されたフレームワークであるGenPASを提案する。ベンチマークと産業データセットを用いた実験により、GenPASは既存の戦略よりも精度、データ効率、パラメータ効率が優れていることが示された。
論文参考訳（メタデータ） (2025-09-17T02:53:25Z)
Multimodal-Guided Dynamic Dataset Pruning for Robust and Efficient Data-Centric Learning [49.10890099624699]
本稿では,タスク駆動の難易度とモダリティ間のセマンティクスの整合性に基づいて,トレーニングサンプルを適応的に選択する動的データセット解析フレームワークを提案する。私たちの研究は、堅牢なサンプル選択のためのモダリティアライメントの統合の可能性を強調し、アプリケーションドメイン全体のより効率的で堅牢なプラクティスに向けて、データ中心の学習を進めています。
論文参考訳（メタデータ） (2025-07-17T03:08:26Z)
Benchmarking Agentic Workflow Generation [80.74757493266057]
複数面シナリオと複雑なグラフワークフロー構造を備えた統合ワークフロー生成ベンチマークであるWorFBenchを紹介する。また,サブシーケンスとサブグラフマッチングアルゴリズムを利用したシステム評価プロトコルWorFEvalを提案する。我々は、生成されたタスクが下流のタスクを強化し、推論中により少ない時間で優れたパフォーマンスを達成することができることを観察する。
論文参考訳（メタデータ） (2024-10-10T12:41:19Z)
Karasu: A Collaborative Approach to Efficient Cluster Configuration for Big Data Analytics [3.779250782197386]
Karasuは、より効率的なリソース構成プロファイリングへのアプローチである。同様のインフラストラクチャ、フレームワーク、アルゴリズム、データセットを扱うユーザ間のデータ共有を促進する。カラスでは, 性能, 検索時間, コストの観点から, 既存の手法を大幅に向上できることを示す。
論文参考訳（メタデータ） (2023-08-22T21:14:57Z)
Optimal transfer protocol by incremental layer defrosting [66.76153955485584]
トランスファーラーニングは、限られた量のデータでモデルトレーニングを可能にする強力なツールである。最も単純な転送学習プロトコルは、データリッチなソースタスクで事前訓練されたネットワークの機能抽出層を凍結する。このプロトコルは、しばしば準最適であり、事前学習されたネットワークの小さな部分を凍結したままにしておくと、最大の性能向上が達成される可能性がある。
論文参考訳（メタデータ） (2023-03-02T17:32:11Z)
Optimizing Data Collection for Machine Learning [87.37252958806856]
現代のディープラーニングシステムは、素晴らしいパフォーマンスを達成するために巨大なデータセットを必要とします。過度に収集したデータは不要な現在のコストを発生させる一方、過度に収集したデータは将来のコストと遅延を引き起こす可能性がある。本稿では,データ収集を形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2022-10-03T21:19:05Z)
Nemo: Guiding and Contextualizing Weak Supervision for Interactive Data Programming [77.38174112525168]
私たちは、WS 学習パイプラインの全体的な生産性を、一般的な WS 監督アプローチと比較して平均20%(最大 47% のタスク)改善する、エンドツーエンドのインタラクティブなスーパービジョンシステムである Nemo を紹介します。
論文参考訳（メタデータ） (2022-03-02T19:57:32Z)
Enel: Context-Aware Dynamic Scaling of Distributed Dataflow Jobs using Graph Propagation [52.9168275057997]
本稿では,属性グラフ上でメッセージの伝搬を利用してデータフロージョブをモデル化する,新しい動的スケーリング手法であるEnelを提案する。 Enelが効果的な再スケーリングアクションを識別でき、例えばノードの障害に反応し、異なる実行コンテキストで再利用可能であることを示す。
論文参考訳（メタデータ） (2021-08-27T10:21:08Z)
Evaluation of Load Prediction Techniques for Distributed Stream Processing [0.0]
分散ストリーム処理(DSP)システムは、連続データの大きなストリームを処理し、ほぼリアルタイムで結果を生成する。 DSPシステムにイベントが到着する速度は、時間とともに大きく変化する可能性がある。入ってくるワークロードの事前知識は、リソース管理と最適化に対する積極的なアプローチを可能にする。
論文参考訳（メタデータ） (2021-08-10T15:25:32Z)
Bellamy: Reusing Performance Models for Distributed Dataflow Jobs Across Contexts [52.9168275057997]
本稿では、スケールアウト、データセットサイズ、ランタイムをデータフロージョブの記述的特性と組み合わせた新しいモデリング手法であるBelamyを提案する。我々は,異なる環境で実行される各種データフロージョブの実行データからなる2つの公開データセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2021-07-29T11:57:38Z)
Optimal Resource Allocation for Serverless Queries [8.59568779761598]
以前の作業では、リソース割り当てと実行時の積極的なトレードオフを無視しながら、ピークアロケーションの予測に重点を置いていた。本稿では,新しいクエリと過去のクエリの両方に対して,アグレッシブなトレードオフでパフォーマンスを予測できる最適なリソース割り当てシステムを提案する。
論文参考訳（メタデータ） (2021-07-19T02:55:48Z)
Sequence-to-sequence models for workload interference [1.988145627448243]
データセンターでのジョブのスケジューリングは難しいシナリオであり、ジョブは厳しいスローダウンや実行の失敗につながるリソースを競うことができる。現在のテクニックは、多くが機械学習とジョブモデリングを含むもので、時間にわたってワークロードの振る舞いを要約に基づいている。本稿では,リソースや実行時間に対する行動に基づいて,データセンタ上でのジョブの協調スケジューリングをモデル化する手法を提案する。
論文参考訳（メタデータ） (2020-06-25T14:11:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。