論文の概要: Phoebe: A Learning-based Checkpoint Optimizer
- arxiv url: http://arxiv.org/abs/2110.02313v1
- Date: Tue, 5 Oct 2021 19:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 11:05:38.718334
- Title: Phoebe: A Learning-based Checkpoint Optimizer
- Title(参考訳): Phoebe: 学習ベースのチェックポイント最適化
- Authors: Yiwen Zhu, Matteo Interlandi, Abhishek Roy, Krishnadhan Das, Hiren
Patel, Malay Bag, Hitesh Sharma, Alekh Jindal
- Abstract要約: 効率的な学習ベースのチェックポイントモジュールであるPhoebeを提案する。
Phoebeは、ホットスポット上の一時的なストレージを70%以上解放し、パフォーマンスへの影響を最小限に抑えながら、平均で68%高速にジョブを再起動できることを示した。
- 参考スコア(独自算出の注目度): 5.645636474391657
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Easy-to-use programming interfaces paired with cloud-scale processing engines
have enabled big data system users to author arbitrarily complex analytical
jobs over massive volumes of data. However, as the complexity and scale of
analytical jobs increase, they encounter a number of unforeseen problems,
hotspots with large intermediate data on temporary storage, longer job recovery
time after failures, and worse query optimizer estimates being examples of
issues that we are facing at Microsoft.
To address these issues, we propose Phoebe, an efficient learning-based
checkpoint optimizer. Given a set of constraints and an objective function at
compile-time, Phoebe is able to determine the decomposition of job plans, and
the optimal set of checkpoints to preserve their outputs to durable global
storage. Phoebe consists of three machine learning predictors and one
optimization module. For each stage of a job, Phoebe makes accurate predictions
for: (1) the execution time, (2) the output size, and (3) the start/end time
taking into account the inter-stage dependencies. Using these predictions, we
formulate checkpoint optimization as an integer programming problem and propose
a scalable heuristic algorithm that meets the latency requirement of the
production environment.
We demonstrate the effectiveness of Phoebe in production workloads, and show
that we can free the temporary storage on hotspots by more than 70% and restart
failed jobs 68% faster on average with minimum performance impact. Phoebe also
illustrates that adding multiple sets of checkpoints is not cost-efficient,
which dramatically reduces the complexity of the optimization.
- Abstract(参考訳): クラウドスケールの処理エンジンと組み合わせた使いやすいプログラミングインターフェースにより、ビッグデータシステムユーザは、大量のデータに対して任意の複雑な分析ジョブを作成できるようになった。
しかし、分析ジョブの複雑さと規模が大きくなるにつれて、多くの予期せぬ問題、一時的なストレージ上の巨大な中間データを持つホットスポット、障害後のジョブリカバリ時間、Microsoftが直面している問題の一例であるクエリオプティマイザの推定が悪化する。
これらの問題に対処するため,我々は効率的な学習ベースのチェックポイントオプティマイザであるphoebeを提案する。
コンパイル時の制約セットと目的関数が与えられた場合、フェーベはジョブプランの分解と、その出力を耐久性のあるグローバルストレージに保存する最適なチェックポイントのセットを決定することができる。
Phoebeは3つの機械学習予測器と1つの最適化モジュールで構成される。
ジョブの各ステージについて、Phoebe氏は、(1)実行時間、(2)出力サイズ、(3)ステージ間の依存関係を考慮した開始/終了時間に関する正確な予測を行う。
これらの予測を用いて,チェックポイント最適化を整数プログラミング問題として定式化し,実運用環境のレイテンシ要求を満たすスケーラブルなヒューリスティックアルゴリズムを提案する。
プロダクションワークロードにおけるphoebeの有効性を実証し,hotspotsの一時ストレージを70%以上解放し,平均で68%高速化し,パフォーマンスへの影響を最小限に抑えることを実証した。
Phoebe氏はまた、複数のチェックポイントを追加することはコスト効率ではなく、最適化の複雑さを劇的に減らすと説明している。
関連論文リスト
- EffiCANet: Efficient Time Series Forecasting with Convolutional Attention [12.784289506021265]
EffiCANetは計算効率を維持しながら予測精度を向上させるように設計されている。
EffiCANetは最先端モデルに対するMAEの最大10.02%の削減を実現している。
論文 参考訳(メタデータ) (2024-11-07T12:54:42Z) - Fast networked data selection via distributed smoothed quantile estimation [6.002041236376175]
我々は,最も情報性の高いデータを選択することと,マルチセットの上位k$要素を見つけることの関連性を確立する。
ネットワークにおけるトップ$kの選択は、量子的推定として知られる分散非平滑凸最適化問題として定式化することができる。
我々は、高い凸性の欠如による挑戦的な課題である、トップ$選択を達成するために必要な複雑さを特徴付けている。
論文 参考訳(メタデータ) (2024-06-04T03:26:15Z) - Experiment Planning with Function Approximation [49.50254688629728]
本研究では,文脈的帯域幅問題における関数近似を用いた実験計画の問題点について検討する。
本稿では,関数近似に適合する2つの実験計画戦略を提案する。
そこで, 均一サンプリング器は, 動作数が少ない設定において, 競合最適性を達成できることを示す。
論文 参考訳(メタデータ) (2024-01-10T14:40:23Z) - Towards General and Efficient Online Tuning for Spark [55.30868031221838]
本稿では,3つの問題を同時に処理できる汎用的で効率的なSparkチューニングフレームワークを提案する。
我々は、このフレームワークを独立したクラウドサービスとして実装し、Tencentのデータプラットフォームに適用しました。
論文 参考訳(メタデータ) (2023-09-05T02:16:45Z) - Large-Batch, Iteration-Efficient Neural Bayesian Design Optimization [37.339567743948955]
本稿では,BOの限界に対処するための新しいベイズ最適化フレームワークを提案する。
我々の重要な貢献は、高度にスケーラブルでサンプルベースの取得機能であり、非支配的な目的のソートを実行する。
我々は,ベイズ型ニューラルネットワークサロゲートと組み合わせることで,最小限の反復数でデータ集約環境に有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T19:10:57Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Grouped self-attention mechanism for a memory-efficient Transformer [64.0125322353281]
天気予報、電力消費、株式市場などの現実世界のタスクには、時間とともに変化するデータの予測が含まれる。
時系列データは通常、その周期的特性と時間的長期依存性のために、長いシーケンスで長い観察期間にわたって記録される。
我々はGSA(Grouped Self-Attention)とCCA(Compressed Cross-Attention)の2つの新しいモジュールを提案する。
提案モデルでは,既存の手法に匹敵する計算量と性能の低減が効果的に示された。
論文 参考訳(メタデータ) (2022-10-02T06:58:49Z) - Network Calculus with Flow Prolongation -- A Feedforward FIFO Analysis
enabled by ML [73.11023209243326]
Flow Prolongation (FP) は遅延境界精度を大幅に改善することが示されている。
本稿では,機械学習を用いて拡張を予測することによって,FPをスケールするアプローチであるDeepFPを紹介する。
DeepFPは計算コストを無視して平均12.1%削減する。
論文 参考訳(メタデータ) (2022-02-07T08:46:47Z) - Scheduling in Parallel Finite Buffer Systems: Optimal Decisions under
Delayed Feedback [29.177402567437206]
本稿では,遅延認識の限られた情報の下で並列キューシステムにおけるスケジューリング決定をキャプチャする部分観測可能(PO)モデルを提案する。
得られたポリシーが他の限られた情報スケジューリング戦略より優れていることを数値的に示す。
本稿では,Kaggleが提供するネットワークデータを用いてリアルタイム並列処理を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-17T13:45:02Z) - FastIF: Scalable Influence Functions for Efficient Model Interpretation
and Debugging [112.19994766375231]
影響関数は、テスト予測のためのトレーニングデータポイントの「影響」を近似する。
fastifは、実行時間を大幅に改善する関数に影響を与えるための、単純な修正セットです。
本実験はモデル解釈とモデル誤差の修正における影響関数の可能性を示す。
論文 参考訳(メタデータ) (2020-12-31T18:02:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。