論文の概要: An Evaluation of Low Overhead Time Series Preprocessing Techniques for
Downstream Machine Learning
- arxiv url: http://arxiv.org/abs/2209.05300v1
- Date: Mon, 12 Sep 2022 15:05:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-13 14:12:47.851057
- Title: An Evaluation of Low Overhead Time Series Preprocessing Techniques for
Downstream Machine Learning
- Title(参考訳): 下流機械学習のための低オーバーヘッド時系列前処理技術の評価
- Authors: Matthew L. Weiss, Joseph McDonald, David Bestor, Charles Yee, Daniel
Edelman, Michael Jones, Andrew Prout, Andrew Bowne, Lindsey McEvoy, Vijay
Gadepally, Siddharth Samsi
- Abstract要約: 多チャンネル時系列データの誤調整は、様々な理由で起こりうる。
ジョブの起動時間とHPCジョブの実行時間が異なるため、データの不一致が発生します。
このミスアライメントにより、計算ワークロードの分類などのタスクに対して、AI/MLアプローチを構築するのが難しくなる。
- 参考スコア(独自算出の注目度): 7.129635795286696
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we address the application of pre-processing techniques to
multi-channel time series data with varying lengths, which we refer to as the
alignment problem, for downstream machine learning. The misalignment of
multi-channel time series data may occur for a variety of reasons, such as
missing data, varying sampling rates, or inconsistent collection times. We
consider multi-channel time series data collected from the MIT SuperCloud High
Performance Computing (HPC) center, where different job start times and varying
run times of HPC jobs result in misaligned data. This misalignment makes it
challenging to build AI/ML approaches for tasks such as compute workload
classification. Building on previous supervised classification work with the
MIT SuperCloud Dataset, we address the alignment problem via three broad, low
overhead approaches: sampling a fixed subset from a full time series,
performing summary statistics on a full time series, and sampling a subset of
coefficients from time series mapped to the frequency domain. Our best
performing models achieve a classification accuracy greater than 95%,
outperforming previous approaches to multi-channel time series classification
with the MIT SuperCloud Dataset by 5%. These results indicate our low overhead
approaches to solving the alignment problem, in conjunction with standard
machine learning techniques, are able to achieve high levels of classification
accuracy, and serve as a baseline for future approaches to addressing the
alignment problem, such as kernel methods.
- Abstract(参考訳): 本稿では、下流機械学習におけるアライメント問題(アライメント問題)と呼ぶ長さの異なるマルチチャネル時系列データに対する前処理手法の適用について述べる。
マルチチャネル時系列データの誤アライメントは、欠落データ、様々なサンプリングレート、一貫性のない収集時間など、さまざまな理由で発生する可能性がある。
我々は,mit supercloud high performance computing (hpc) センターから収集されたマルチチャネル時系列データについて検討する。
このミスアライメントにより、計算ワークロードの分類などのタスクに対するAI/MLアプローチの構築が困難になる。
mit supercloudデータセットによる以前の教師付き分類作業に基づいて、全時系列から固定サブセットをサンプリングし、全時系列で要約統計を実行し、周波数領域にマッピングされた時系列から係数のサブセットをサンプリングする3つの幅広い低オーバーヘッドアプローチによってアライメント問題に対処する。
我々の最高の性能モデルは95%以上の分類精度を達成し、MIT SuperCloud Datasetによるマルチチャネル時系列分類に対する従来のアプローチよりも5%上回った。
これらの結果から,アライメント問題を解決するための低オーバーヘッドアプローチは,標準的な機械学習手法と相まって,高いレベルの分類精度を達成し,カーネル手法などのアライメント問題に対処するための今後のアプローチのベースラインとなることが示唆された。
関連論文リスト
- An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - PeFAD: A Parameter-Efficient Federated Framework for Time Series Anomaly Detection [51.20479454379662]
私たちはaを提案します。
フェデレートされた異常検出フレームワークであるPeFADは、プライバシーの懸念が高まっている。
我々は、4つの実際のデータセットに対して広範な評価を行い、PeFADは既存の最先端ベースラインを最大28.74%上回っている。
論文 参考訳(メタデータ) (2024-06-04T13:51:08Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - Pushing the Limits of Pre-training for Time Series Forecasting in the
CloudOps Domain [54.67888148566323]
クラウドオペレーションドメインから,大規模時系列予測データセットを3つ導入する。
強力なゼロショットベースラインであり、モデルとデータセットサイズの両方において、さらなるスケーリングの恩恵を受けています。
これらのデータセットと結果を取得することは、古典的および深層学習のベースラインを事前訓練された方法と比較した総合的なベンチマーク結果の集合である。
論文 参考訳(メタデータ) (2023-10-08T08:09:51Z) - Detection of Anomalies in Multivariate Time Series Using Ensemble
Techniques [3.2422067155309806]
最終的な決定に向けて,複数の基本モデルを組み合わせたアンサンブル手法を提案する。
また,ロジスティック回帰器を用いて基本モデルの出力を結合する半教師付き手法を提案する。
異常検出精度の点での性能改善は、教師なしモデルでは2%、半教師なしモデルでは少なくとも10%に達する。
論文 参考訳(メタデータ) (2023-08-06T17:51:22Z) - Multivariate Time Series Early Classification Across Channel and Time
Dimensions [3.5786621294068373]
より柔軟な早期分類パイプラインを提案し、入力チャネルをより細かく検討する。
提案手法は,等価な入力利用のための精度の向上を図り,早期分類のパラダイムを向上することができる。
論文 参考訳(メタデータ) (2023-06-26T11:30:33Z) - Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models [61.10851158749843]
データ固有のリード-ラグ関係を発見することで、重要な洞察を得ることができる。
階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。
論文 参考訳(メタデータ) (2023-05-11T10:30:35Z) - Few-Shot Forecasting of Time-Series with Heterogeneous Channels [4.635820333232681]
本研究では,時間的埋め込みを組み込んだ置換不変な深部集合ブロックからなるモデルを開発する。
実験を通して、我々のモデルはより単純なシナリオから実行されたベースラインよりも優れた一般化を提供することを示す。
論文 参考訳(メタデータ) (2022-04-07T14:02:15Z) - Cluster-and-Conquer: A Framework For Time-Series Forecasting [94.63501563413725]
本稿では,高次元時系列データを予測するための3段階フレームワークを提案する。
当社のフレームワークは非常に汎用的で,各ステップで時系列予測やクラスタリングが利用可能です。
単純な線形自己回帰モデルでインスタンス化されると、いくつかのベンチマークデータセットで最先端の結果が得られる。
論文 参考訳(メタデータ) (2021-10-26T20:41:19Z) - TadGAN: Time Series Anomaly Detection Using Generative Adversarial
Networks [73.01104041298031]
TadGANは、GAN(Generative Adversarial Networks)上に構築された教師なしの異常検出手法である。
時系列の時間相関を捉えるために,ジェネレータと批評家のベースモデルとしてLSTMリカレントニューラルネットワークを用いる。
提案手法の性能と一般化性を示すため,いくつかの異常スコアリング手法を検証し,最も適した手法を報告する。
論文 参考訳(メタデータ) (2020-09-16T15:52:04Z) - Multi-label Prediction in Time Series Data using Deep Neural Networks [19.950094635430048]
本稿では,多次元時系列データに対するマルチラベル予測故障分類問題に対処する。
提案アルゴリズムは2つの公開ベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-01-27T21:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。