論文の概要: tsrobprep -- an R package for robust preprocessing of time series data
- arxiv url: http://arxiv.org/abs/2104.12657v1
- Date: Mon, 26 Apr 2021 15:35:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-27 18:57:01.159680
- Title: tsrobprep -- an R package for robust preprocessing of time series data
- Title(参考訳): tsrobprep -- 時系列データの堅牢な前処理のためのRパッケージ
- Authors: Micha{\l} Narajewski, Jens Kley-Holsteg, Florian Ziel
- Abstract要約: オープンソースパッケージ tsrobprep は、欠落した値と外れ値を処理する効率的な方法を紹介します。
データインプットには、自己回帰コンポーネントと外部入力からなる確率的置換モデルが提案されている。
異常検出のために、典型的な時系列関連特性を特徴とする有限混合モデルに基づくクラスタリングアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Data cleaning is a crucial part of every data analysis exercise. Yet, the
currently available R packages do not provide fast and robust methods for
cleaning and preparation of time series data. The open source package tsrobprep
introduces efficient methods for handling missing values and outliers using
model based approaches. For data imputation a probabilistic replacement model
is proposed, which may consist of autoregressive components and external
inputs. For outlier detection a clustering algorithm based on finite mixture
modelling is introduced, which considers typical time series related properties
as features. By assigning to each observation a probability of being an
outlying data point, the degree of outlyingness can be determined. The methods
work robust and are fully tunable. Moreover, by providing the
auto_data_cleaning function the data preprocessing can be carried out in one
cast, without manual tuning and providing suitable results. The primary
motivation of the package is the preprocessing of energy system data, however,
the package is also suited for other moderate and large sized time series data
set. We present application for electricity load, wind and solar power data.
- Abstract(参考訳): データクリーニングは、すべてのデータ分析活動において重要な部分です。
しかし、現在利用可能なRパッケージは、時系列データのクリーニングと作成のための高速で堅牢な方法を提供していない。
オープンソースのパッケージtsrobprepは、モデルベースのアプローチを使用して、欠落した値と外れ値を扱う効率的な方法を導入している。
データインプットには、自己回帰コンポーネントと外部入力からなる確率的置換モデルが提案されている。
外乱検出には、有限混合モデリングに基づくクラスタリングアルゴリズムを導入し、典型的な時系列関連特性を特徴とする。
各観測者にアウトリー化データポイントとなる確率を割り当てることにより、アウトリー化度を決定することができる。
メソッドは堅牢で、完全にチューニング可能である。
さらに、auto_data_cleaning関数を提供することで、手動チューニングなしで1つのキャストでデータ前処理を実行でき、適切な結果が得られる。
このパッケージの主な動機はエネルギーシステムデータの前処理であるが、このパッケージは他の中程度、大規模の時系列データセットにも適している。
電力負荷・風力・太陽エネルギーデータへの適用について述べる。
関連論文リスト
- RPS: A Generic Reservoir Patterns Sampler [1.09784964592609]
本稿では,ストリーミングバッチデータからの直接パターンサンプリングを容易にするために,重み付き貯水池を利用する手法を提案する。
本稿では、時間的バイアスに対処し、逐次的、重み付け、および非重み付けを含む様々なパターンタイプを処理できる汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:25:21Z) - A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-07T20:21:07Z) - Chronos: Learning the Language of Time Series [79.38691251254173]
Chronosは事前訓練された確率的時系列モデルのためのフレームワークである。
クロノスモデルでは,様々な領域の時系列データを利用して,未知の予測タスクにおけるゼロショット精度を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-03-12T16:53:54Z) - Probabilistic Modeling for Sequences of Sets in Continuous-Time [14.423456635520084]
設定値データを連続的にモデリングするための一般的なフレームワークを開発する。
また,そのようなモデルを用いて確率的クエリに答える推論手法も開発している。
論文 参考訳(メタデータ) (2023-12-22T20:16:10Z) - Stable Training of Probabilistic Models Using the Leave-One-Out Maximum Log-Likelihood Objective [0.7373617024876725]
カーネル密度推定(KDE)に基づくモデルは、このタスクの一般的な選択であるが、密度の異なるデータ領域に適応できない。
適応的なKDEモデルを用いてこれを回避し、モデル内の各カーネルは個別の帯域幅を持つ。
最適化速度を確実に高速化するために改良された期待最大化アルゴリズムを用いる。
論文 参考訳(メタデータ) (2023-10-05T14:08:42Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z) - Time-Series Imputation with Wasserstein Interpolation for Optimal
Look-Ahead-Bias and Variance Tradeoff [66.59869239999459]
ファイナンスでは、ポートフォリオ最適化モデルをトレーニングする前に、損失の計算を適用することができる。
インキュベーションのために全データセットを使用するルックアヘッドバイアスと、トレーニングデータのみを使用することによるインキュベーションの大きなばらつきとの間には、本質的にトレードオフがある。
提案手法は,提案法における差分とルックアヘッドバイアスのトレードオフを最適に制御するベイズ後部コンセンサス分布である。
論文 参考訳(メタデータ) (2021-02-25T09:05:35Z) - Learning summary features of time series for likelihood free inference [93.08098361687722]
時系列データから要約機能を自動的に学習するためのデータ駆動型戦略を提案する。
以上の結果から,データから要約的特徴を学習することで,手作りの値に基づいてLFI手法よりも優れる可能性が示唆された。
論文 参考訳(メタデータ) (2020-12-04T19:21:37Z) - Time series forecasting with Gaussian Processes needs priors [1.5877673959068452]
本稿では,ハイパーパラメータの最適カーネルと信頼性の高い推定法を提案する。
GPモデルは最先端の時系列モデルよりも精度が高い。
論文 参考訳(メタデータ) (2020-09-17T06:46:51Z) - PClean: Bayesian Data Cleaning at Scale with Domain-Specific
Probabilistic Programming [65.88506015656951]
我々は、データセット固有の知識を活用して汚いデータのクリーン化と正規化を行う確率的プログラミング言語であるPCleanを提案する。
PCleanは、(1)確率的プログラムでカスタマイズ可能なリレーショナルデータベースインスタンスの非パラメトリックモデル、(2)モデルの構造を利用するシーケンシャルなモンテカルロ推論アルゴリズム、(3)ほぼ最適のSMC提案とブロックされたギブス再構成の3つのモデルと推論コントリビューションを利用している。
論文 参考訳(メタデータ) (2020-07-23T08:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。