論文の概要: A computational study on imputation methods for missing environmental
data
- arxiv url: http://arxiv.org/abs/2108.09500v1
- Date: Sat, 21 Aug 2021 12:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 15:20:46.929312
- Title: A computational study on imputation methods for missing environmental
data
- Title(参考訳): 環境データ不足に対する計算的計算法に関する研究
- Authors: Paul Dixneuf and Fausto Errico and Mathias Glaus
- Abstract要約: 本稿では,自然環境に関する情報を収集するデータベースに焦点を当てる。
本研究は,いくつかの欠落データ計算手法の性能と,その環境における欠落データ問題への応用について検討する。
本研究は, 環境データ不足に対処する上で, MF を抑止法として用いることの意義を実証するものであると信じている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Data acquisition and recording in the form of databases are routine
operations. The process of collecting data, however, may experience
irregularities, resulting in databases with missing data. Missing entries might
alter analysis efficiency and, consequently, the associated decision-making
process. This paper focuses on databases collecting information related to the
natural environment. Given the broad spectrum of recorded activities, these
databases typically are of mixed nature. It is therefore relevant to evaluate
the performance of missing data processing methods considering this
characteristic. In this paper we investigate the performances of several
missing data imputation methods and their application to the problem of missing
data in environment. A computational study was performed to compare the method
missForest (MF) with two other imputation methods, namely Multivariate
Imputation by Chained Equations (MICE) and K-Nearest Neighbors (KNN). Tests
were made on 10 pretreated datasets of various types. Results revealed that MF
generally outperformed MICE and KNN in terms of imputation errors, with a more
pronounced performance gap for mixed typed databases where MF reduced the
imputation error up to 150%, when compared to the other methods. KNN was
usually the fastest method. MF was then successfully applied to a case study on
Quebec wastewater treatment plants performance monitoring. We believe that the
present study demonstrates the pertinence of using MF as imputation method when
dealing with missing environmental data.
- Abstract(参考訳): データベース形式でのデータ取得と記録は日常的な操作である。
しかし、データ収集のプロセスは、不規則な状況に陥り、データ欠落したデータベースが発生する可能性がある。
ミスエントリは分析効率を変化させ、その結果、関連する意思決定プロセスを変化させる。
本稿では,自然環境に関する情報を収集するデータベースに焦点を当てる。
記録された活動の幅広いスペクトルを考えると、これらのデータベースは典型的に混在している。
したがって、この特性を考慮したデータ処理手法の性能を評価することは重要である。
本稿では,いくつかの欠落データ計算手法の性能と,その環境における欠落データ問題への応用について検討する。
この手法を連鎖方程式 (mice) と k-nearest neighbors (knn) による多変量インプテーション法(multivariate imputation by chained equation) と比較した。
さまざまなタイプの10の事前処理データセットでテストが行われた。
その結果,MF の計算誤差は MICE と KNN より優れており,MF が計算誤差を 150% まで削減した混合型データベースの性能差は,他の手法と比較して顕著であった。
通常、KNNは最速の方法であった。
mfはケベックの排水処理プラントのパフォーマンスモニタリングのケーススタディにうまく適用された。
本研究は, 環境データ不足に対処する上で, MFを抑止法として用いることの意義を示すものである。
関連論文リスト
- Estimating Conditional Average Treatment Effects via Sufficient Representation Learning [31.822980052107496]
本稿では,その特徴を十分に表現するためにtextbfCrossNet という新しいニューラルネットワークアプローチを提案し,条件平均処理効果(CATE)を推定する。
数値シミュレーションと実験により,本手法が競合手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-08-30T07:23:59Z) - On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Physics-informed and Unsupervised Riemannian Domain Adaptation for Machine Learning on Heterogeneous EEG Datasets [53.367212596352324]
脳波信号物理を利用した教師なし手法を提案する。
脳波チャンネルをフィールド、ソースフリーなドメイン適応を用いて固定位置にマッピングする。
提案手法は脳-コンピュータインタフェース(BCI)タスクおよび潜在的なバイオマーカー応用におけるロバストな性能を示す。
論文 参考訳(メタデータ) (2024-03-07T16:17:33Z) - In-Database Data Imputation [0.6157028677798809]
データの欠落は多くの領域で広く問題となり、データ分析と意思決定の課題を生み出します。
不完全なレコードを除外したり、単純な見積もりを示唆するといった、欠落したデータを扱う従来の手法は、計算的に効率的であるが、バイアスを導入し、変数の関係を乱す可能性がある。
モデルベースの計算手法は、データの変動性と関係を保存し、より堅牢なソリューションを提供するが、彼らは計算時間をはるかに多く要求する。
この作業は、広く使われているMICE方式を用いて、データベースシステム内の効率的で高品質でスケーラブルなデータ計算を可能にする。
論文 参考訳(メタデータ) (2024-01-07T01:57:41Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data [9.50726756006467]
既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-11-23T20:54:26Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Self-Trained One-class Classification for Unsupervised Anomaly Detection [56.35424872736276]
異常検出(AD)は、製造から医療まで、さまざまな分野に応用されている。
本研究は、トレーニングデータ全体がラベル付けされておらず、正規サンプルと異常サンプルの両方を含む可能性のある、教師なしAD問題に焦点を当てる。
この問題に対処するため,データリファインメントによる堅牢な一級分類フレームワークを構築した。
本手法は6.3AUCと12.5AUCの平均精度で最先端の1クラス分類法より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T01:36:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。