論文の概要: mDAE : modified Denoising AutoEncoder for missing data imputation
- arxiv url: http://arxiv.org/abs/2411.12847v1
- Date: Tue, 19 Nov 2024 20:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:04.492676
- Title: mDAE : modified Denoising AutoEncoder for missing data imputation
- Title(参考訳): mDAE : 欠落データ計算のための修正Denoising AutoEncoder
- Authors: Mariette Dupuy, Marie Chavent, Remi Dubois,
- Abstract要約: 本稿では,DAE(Denoising AutoEncoder)をベースとした手法を提案する。
Ablation study showed the benefit of using this modified loss function and a Overcomplete structure, terms of Root Mean Squared Error (RMSE) of reconstruction。
平均距離ベスト(Mean Distance to Best、MDB)と呼ばれる基準が提案され、すべてのデータセットでメソッドがグローバルにどのように機能するかを測定する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces a methodology based on Denoising AutoEncoder (DAE) for missing data imputation. The proposed methodology, called mDAE hereafter, results from a modification of the loss function and a straightforward procedure for choosing the hyper-parameters. An ablation study shows on several UCI Machine Learning Repository datasets, the benefit of using this modified loss function and an overcomplete structure, in terms of Root Mean Squared Error (RMSE) of reconstruction. This numerical study is completed by comparing the mDAE methodology with eight other methods (four standard and four more recent). A criterion called Mean Distance to Best (MDB) is proposed to measure how a method performs globally well on all datasets. This criterion is defined as the mean (over the datasets) of the distances between the RMSE of the considered method and the RMSE of the best method. According to this criterion, the mDAE methodology was consistently ranked among the top methods (along with SoftImput and missForest), while the four more recent methods were systematically ranked last. The Python code of the numerical study will be available on GitHub so that results can be reproduced or generalized with other datasets and methods.
- Abstract(参考訳): 本稿では,DAE(Denoising AutoEncoder)をベースとした手法を提案する。
提案手法は,損失関数の修正とハイパーパラメータ選択のための簡単な手順により,mDAEと呼ばれる。
UCI Machine Learning Repositoryデータセットと、この修正された損失関数とオーバーコンプリート構造の利点を、再構築のルート平均正方形エラー(RMSE)の観点から比較した。
この数値的な研究は、mDAE法と他の8つの方法(4つの標準と4つの最近の方法)を比較して完了する。
平均距離ベスト(Mean Distance to Best、MDB)と呼ばれる基準が提案され、すべてのデータセットでメソッドがグローバルにどのように機能するかを測定する。
この基準は、考慮されたメソッドのRMSEと最良のメソッドのRMSEの間の距離の平均(データセット上の)として定義される。
この基準によると、mDAEの方法論は(SoftImputとMissForestとともに)一貫して上位の手法にランクされ、さらに最近の4つの手法が最後に体系的にランク付けされた。
数値調査のPythonコードはGitHubで公開され、結果を他のデータセットやメソッドで再現または一般化することができる。
関連論文リスト
- Unsupervised Domain Adaptation Via Data Pruning [0.0]
非教師なし領域適応(UDA)の観点から問題を考える。
本稿では,UDAのトレーニング例を取り除き,トレーニング分布を対象データと整合させる手法であるAdaPruneを提案する。
UDAの手法として、AdaPruneは関連する技術より優れており、CoRALなどの他のUDAアルゴリズムと相補的であることを示す。
論文 参考訳(メタデータ) (2024-09-18T15:48:59Z) - Numerical Data Imputation for Multimodal Data Sets: A Probabilistic
Nearest-Neighbor Kernel Density Approach [2.750124853532831]
近辺推定(k$NN)と密度推定をガウスカーネル(KDE)で組み合わせたデータ計算手法を提案する。
提案手法は, 複雑なデータ構造に対処し, より低いデータ計算誤差を発生し, 確率的推定を現在の手法よりも高い確率で行うことができることを示す。
論文 参考訳(メタデータ) (2023-06-29T12:55:58Z) - IRTCI: Item Response Theory for Categorical Imputation [5.9952530228468754]
欠落したデータをスタンドイン値に置き換えるために、いくつかの計算手法が設計されている。
ここで紹介された作品は、アイテム応答理論(IRT)に基づく分類論的計算の新しい手段を提供する。
これらの手法を比較した分析は、3つの異なるデータセットで行われた。
論文 参考訳(メタデータ) (2023-02-08T16:17:20Z) - Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data [9.50726756006467]
既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-11-23T20:54:26Z) - Posterior and Computational Uncertainty in Gaussian Processes [52.26904059556759]
ガウスのプロセスはデータセットのサイズとともに違法にスケールする。
多くの近似法が開発されており、必然的に近似誤差を導入している。
この余分な不確実性の原因は、計算が限られているため、近似後部を使用すると完全に無視される。
本研究では,観測された有限個のデータと有限個の計算量の両方から生じる組合せ不確実性を一貫した推定を行う手法の開発を行う。
論文 参考訳(メタデータ) (2022-05-30T22:16:25Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Graph Signal Restoration Using Nested Deep Algorithm Unrolling [85.53158261016331]
グラフ信号処理は、センサー、社会交通脳ネットワーク、ポイントクラウド処理、グラフネットワークなど、多くのアプリケーションにおいてユビキタスなタスクである。
凸非依存型深部ADMM(ADMM)に基づく2つの復元手法を提案する。
提案手法のパラメータはエンドツーエンドでトレーニング可能である。
論文 参考訳(メタデータ) (2021-06-30T08:57:01Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z) - Evaluating representations by the complexity of learning low-loss
predictors [55.94170724668857]
下流タスクの解決に使用されるデータの表現を評価することの問題点を考察する。
本稿では,関心のあるタスクにおける低損失を実現する表現の上に,予測器を学習する複雑性によって表現の質を測定することを提案する。
論文 参考訳(メタデータ) (2020-09-15T22:06:58Z) - Missing Data Imputation using Optimal Transport [43.14084843713895]
最適輸送距離を利用して基準を定量化し、損失関数に変換し、欠落したデータ値をインプットする。
エンド・ツー・エンド・ラーニングを用いてこれらの損失を最小限に抑えるための実践的手法を提案する。
これらの実験により、OTベースの手法は、欠落した値の高い割合であっても、最先端の計算手法と一致しているか、性能が良くないことを示す。
論文 参考訳(メタデータ) (2020-02-10T15:23:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。