論文の概要: Review for Handling Missing Data with special missing mechanism
- arxiv url: http://arxiv.org/abs/2404.04905v1
- Date: Sun, 7 Apr 2024 10:11:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 19:01:21.920721
- Title: Review for Handling Missing Data with special missing mechanism
- Title(参考訳): 特別な欠落メカニズムによる欠落データ処理のレビュー
- Authors: Youran Zhou, Sunil Aryal, Mohamed Reda Bouadjenek,
- Abstract要約: データ不足はデータサイエンスにおいて大きな課題となり、意思決定プロセスや結果に影響を与えます。
Missing Completely At Random (MCAR)、Missing At Random (MAR)、Missing Not At Random (MNAR)である。
- 参考スコア(独自算出の注目度): 2.124791625488617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data poses a significant challenge in data science, affecting decision-making processes and outcomes. Understanding what missing data is, how it occurs, and why it is crucial to handle it appropriately is paramount when working with real-world data, especially in tabular data, one of the most commonly used data types in the real world. Three missing mechanisms are defined in the literature: Missing Completely At Random (MCAR), Missing At Random (MAR), and Missing Not At Random (MNAR), each presenting unique challenges in imputation. Most existing work are focused on MCAR that is relatively easy to handle. The special missing mechanisms of MNAR and MAR are less explored and understood. This article reviews existing literature on handling missing values. It compares and contrasts existing methods in terms of their ability to handle different missing mechanisms and data types. It identifies research gap in the existing literature and lays out potential directions for future research in the field. The information in this review will help data analysts and researchers to adopt and promote good practices for handling missing data in real-world problems.
- Abstract(参考訳): データ不足はデータサイエンスにおいて大きな課題となり、意思決定プロセスや結果に影響を与えます。
現実のデータを扱う場合、特に表形式のデータでは、何が欠落しているか、どのように発生し、なぜ適切に扱うことが重要なのかを理解することが最重要である。
Missing Completely At Random (MCAR)、Missing At Random (MAR)、Missing Not At Random (MNAR)の3つのメカニズムが文献で定義されている。
既存の作業の多くは、比較的扱いやすいMCARに重点を置いています。
MNARとMARの特別な欠落メカニズムは、あまり解明されず、理解されていない。
この記事では、欠落した値を扱う既存の文献についてレビューする。
異なるメカニズムやデータタイプを扱う能力の観点から、既存のメソッドを比較して比較する。
既存の文献における研究ギャップを特定し、今後の研究の方向性を定めている。
このレビューで得られた情報は、データアナリストや研究者が、現実世界の問題で欠落したデータを扱うための優れたプラクティスを採用し、推進するのに役立ちます。
関連論文リスト
- Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Localized Shortcut Removal [4.511561231517167]
保持されたテストデータのハイパフォーマンスは、モデルを一般化したり、意味のあるものを学ぶことを必ずしも示さない。
これはしばしば、機械学習のショートカットの存在が原因である。
我々は、逆向きに訓練されたレンズを用いて、画像中の非常に予測的だが意味的に無関係な手がかりを検出し、排除する。
論文 参考訳(メタデータ) (2022-11-24T13:05:33Z) - Multiple Imputation with Neural Network Gaussian Process for
High-dimensional Incomplete Data [9.50726756006467]
既存のメソッドにはいくつかの制限があるが、Imputationはおそらく欠落データを扱う最も一般的な方法である。
2つのNNGPに基づくMI手法、すなわちMI-NNGPを提案する。
MI-NNGP法は, 合成および実データに対して, 既存の最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2022-11-23T20:54:26Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - MIRACLE: Causally-Aware Imputation via Learning Missing Data Mechanisms [82.90843777097606]
欠落データに対する因果認識型計算アルゴリズム(MIRACLE)を提案する。
MIRACLEは、欠落発生機構を同時にモデル化することにより、ベースラインの計算を反復的に洗練する。
我々は、MIRACLEが一貫してイミューテーションを改善することができることを示すために、合成および様々な公開データセットに関する広範な実験を行う。
論文 参考訳(メタデータ) (2021-11-04T22:38:18Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z) - Multiple Imputation with Denoising Autoencoder using Metamorphic Truth
and Imputation Feedback [0.0]
データの内部表現を学習するために,Denoising Autoencoder を用いた多重命令モデルを提案する。
我々は、属性の統計的整合性を維持するために、変成真理と帰納フィードバックの新たなメカニズムを用いる。
提案手法は,多くの標準的なテストケースにおいて,様々な欠落メカニズムや欠落したデータのパターンに対するインパルスの効果を検証し,他の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-02-19T18:26:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。