論文の概要: Diffusion-based Time Series Data Imputation for Microsoft 365
- arxiv url: http://arxiv.org/abs/2309.02564v1
- Date: Thu, 3 Aug 2023 10:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-10 03:48:03.201632
- Title: Diffusion-based Time Series Data Imputation for Microsoft 365
- Title(参考訳): 拡散に基づくMicrosoft 365の時系列データ計算
- Authors: Fangkai Yang, Wenjie Yin, Lu Wang, Tianci Li, Pu Zhao, Bo Liu, Paul
Wang, Bo Qiao, Yudong Liu, M{\aa}rten Bj\"orkman, Saravan Rajmohan, Qingwei
Lin, Dongmei Zhang
- Abstract要約: 本稿では,サンプル効率のよい拡散モデルであるDiffusion+によるデータ計算によるデータ品質の向上に焦点をあてる。
我々の実験と応用実践は、下流の故障予測タスクの性能向上に我々のモデルが貢献していることを示している。
- 参考スコア(独自算出の注目度): 35.16965409097466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliability is extremely important for large-scale cloud systems like
Microsoft 365. Cloud failures such as disk failure, node failure, etc. threaten
service reliability, resulting in online service interruptions and economic
loss. Existing works focus on predicting cloud failures and proactively taking
action before failures happen. However, they suffer from poor data quality like
data missing in model training and prediction, which limits the performance. In
this paper, we focus on enhancing data quality through data imputation by the
proposed Diffusion+, a sample-efficient diffusion model, to impute the missing
data efficiently based on the observed data. Our experiments and application
practice show that our model contributes to improving the performance of the
downstream failure prediction task.
- Abstract(参考訳): microsoft 365のような大規模クラウドシステムでは、信頼性が非常に重要です。
ディスク障害やノード障害などのクラウド障害はサービスの信頼性を脅かし、オンラインサービスの中断と経済的損失をもたらす。
既存の作業では、クラウド障害の予測と、障害発生前に積極的に行動を起こすことに注力している。
しかし、モデルトレーニングや予測に欠けているデータのようなデータ品質に悩まされ、パフォーマンスが制限されます。
本稿では,サンプル効率のよい拡散モデルである diffusion+ によるデータインプテーションによるデータ品質の向上に着目し,観測データに基づいて欠落したデータを効率的にインプットする。
実験と応用により,本モデルがダウンストリーム障害予測タスクの性能向上に寄与することを示した。
関連論文リスト
- Multivariate Data Augmentation for Predictive Maintenance using Diffusion [35.286105732902065]
予測メンテナンスは、産業、医療、金融分野におけるシステムの修復を最適化するために使われてきた。
これらのモデルをトレーニングするフォールトデータがないのは、フォールトの発生とダウンタイムを最小限に抑えるために取り組んでいる組織のためです。
新たにインストールされたシステムでは、障害データがまだ存在しないため、障害データは存在しない。
論文 参考訳(メタデータ) (2024-11-06T16:57:09Z) - Why does Prediction Accuracy Decrease over Time? Uncertain Positive
Learning for Cloud Failure Prediction [35.058991707881646]
また,モデルの再訓練後,予測精度が約9%低下する可能性が示唆された。
緩和動作は、予測モデルを更新しながらより多くのノイズを発生させる可能性がある緩和後に検証できないため、不確実な正の事例をもたらす可能性がある。
この問題に対処するために、我々は不確実な正の学習リスク推定器(Uptake)アプローチを設計する。
論文 参考訳(メタデータ) (2024-01-08T03:13:09Z) - GraphGuard: Detecting and Counteracting Training Data Misuse in Graph
Neural Networks [69.97213941893351]
グラフデータ分析におけるグラフニューラルネットワーク(GNN)の出現は、モデルトレーニング中のデータ誤用に関する重要な懸念を引き起こしている。
既存の手法は、データ誤用検出または緩和のいずれかに対応しており、主にローカルGNNモデル用に設計されている。
本稿では,これらの課題に対処するため,GraphGuardという先駆的なアプローチを導入する。
論文 参考訳(メタデータ) (2023-12-13T02:59:37Z) - Towards Continually Learning Application Performance Models [1.2278517240988065]
機械学習ベースのパフォーマンスモデルは、重要なジョブスケジューリングとアプリケーションの最適化決定を構築するために、ますます使われています。
伝統的に、これらのモデルは、より多くのサンプルが時間とともに収集されるため、データ分布が変化しないと仮定する。
本研究では,分布のドリフトを考慮した継続的な学習性能モデルを構築し,破滅的な忘れを軽減し,一般化性を向上させる。
論文 参考訳(メタデータ) (2023-10-25T20:48:46Z) - A Bayesian Generative Adversarial Network (GAN) to Generate Synthetic
Time-Series Data, Application in Combined Sewer Flow Prediction [3.3139597764446607]
機械学習では、生成モデル(generative model)は、データ分散を学習して人工データを生成する方法のクラスである。
本研究では,限られた時系列データのバランスをとるために,合成時系列を生成するGANモデルを開発した。
本研究の目的は, 降水量データを用いて流れを予測し, モデル性能における合成データを用いたデータ増大の影響を検討することである。
論文 参考訳(メタデータ) (2023-01-31T16:12:26Z) - Striving for data-model efficiency: Identifying data externalities on
group performance [75.17591306911015]
信頼できる、効果的で責任ある機械学習システムの構築は、トレーニングデータとモデリング決定の違いが、予測パフォーマンスにどのように影響するかを理解することに集中する。
我々は、特定のタイプのデータモデル非効率性に注目し、一部のソースからトレーニングデータを追加することで、集団の重要なサブグループで評価されるパフォーマンスを実際に低下させることができる。
以上の結果から,データ効率が正確かつ信頼性の高い機械学習の鍵となることが示唆された。
論文 参考訳(メタデータ) (2022-11-11T16:48:27Z) - Robust Trajectory Prediction against Adversarial Attacks [84.10405251683713]
ディープニューラルネットワーク(DNN)を用いた軌道予測は、自律運転システムにおいて不可欠な要素である。
これらの手法は敵の攻撃に対して脆弱であり、衝突などの重大な結果をもたらす。
本研究では,敵対的攻撃に対する軌道予測モデルを保護するための2つの重要な要素を同定する。
論文 参考訳(メタデータ) (2022-07-29T22:35:05Z) - DualCF: Efficient Model Extraction Attack from Counterfactual
Explanations [57.46134660974256]
クラウドサービスプロバイダがMachine-Learning-as-a-Serviceプラットフォームをローンチした。
このような余分な情報は、必然的にクラウドモデルが、抽出攻撃に対してより脆弱になる。
本稿では,分類モデルを盗むためのクエリ効率を大幅に向上させる,新しい単純で効率的なクエリ手法を提案する。
論文 参考訳(メタデータ) (2022-05-13T08:24:43Z) - Large-scale memory failure prediction using mcelog-based Data Mining and
Machine Learning [0.0]
データセンターでは、メモリ障害による予期せぬダウンタイムがサーバーの安定性の低下につながる可能性があります。
本稿では、一般的に使用されるスキルとそれらがもたらす改善を比較要約する。
私たちが提案したシングルモデルは、第2回Alibaba Cloud AIOps Competitionで上位15位を獲得しました。
論文 参考訳(メタデータ) (2021-04-24T11:38:05Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。