論文の概要: The Missing Indicator Method: From Low to High Dimensions
- arxiv url: http://arxiv.org/abs/2211.09259v1
- Date: Wed, 16 Nov 2022 23:10:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-18 15:08:18.619740
- Title: The Missing Indicator Method: From Low to High Dimensions
- Title(参考訳): 欠落指標法:低次元から高次元へ
- Authors: Mike Van Ness, Tomas M. Bosschieter, Roberto Halpin-Gregorio,
Madeleine Udell
- Abstract要約: データ不足は応用データ科学、特に医療、社会科学、自然科学でよく見られる。
情報に欠けるパターンを持つデータセットでは、Missing Indicator Method (MIM) とインプットを併用してモデル性能を向上させることができる。
実験により,MIMは情報不足値のパフォーマンスを向上することを示すとともに,情報不足値に対する線形モデルに悪影響を及ぼさないことを示す。
Selective MIMは、情報不足パターンを持つ機能にのみ、欠落指標を追加する手法である。
- 参考スコア(独自算出の注目度): 16.899237833310064
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Missing data is common in applied data science, particularly for tabular data
sets found in healthcare, social sciences, and natural sciences. Most
supervised learning methods work only on complete data, thus requiring
preprocessing, such as missing value imputation, to work on incomplete data
sets. However, imputation discards potentially useful information encoded by
the pattern of missing values. For data sets with informative missing patterns,
the Missing Indicator Method (MIM), which adds indicator variables to indicate
the missing pattern, can be used in conjunction with imputation to improve
model performance. We show experimentally that MIM improves performance for
informative missing values, and we prove that MIM does not hurt linear models
asymptotically for uninformative missing values. Nonetheless, MIM can increase
variance if many of the added indicators are uninformative, causing harm
particularly for high-dimensional data sets. To address this issue, we
introduce Selective MIM (SMIM), a method that adds missing indicators only for
features that have informative missing patterns. We show empirically that SMIM
performs at least as well as MIM across a range of experimental settings, and
improves MIM for high-dimensional data.
- Abstract(参考訳): 欠落したデータは応用データ科学、特に医療、社会科学、自然科学で見られる表形式のデータセットでよく見られる。
多くの教師付き学習手法は完全データのみで動作するため、不完全なデータセットに取り組むには値インプテーションの欠如のような前処理が必要となる。
しかし、イミューテーションは、欠落した値のパターンによって符号化された潜在的に有用な情報を破棄する。
情報不足パターンを持つデータセットでは、不足パターンを示すインジケータ変数を追加するMiM(Missing Indicator Method)が、インプットと併用してモデルパフォーマンスを向上させることができる。
実験により、MIMは情報不足値のパフォーマンスを向上し、不定形欠落値に対して漸近的に線形モデルを傷つけないことを示す。
それでもmimは、追加されたインジケータの多くが非変換である場合、分散を増加させ、特に高次元データセットに害を与える。
この問題に対処するために,情報に欠ける特徴のみに,不足指標を追加するSelective MIM(SMIM)を導入する。
SMIMは,様々な実験環境において,少なくともMIMと同様に動作し,高次元データのMIMを改善することを実証的に示す。
関連論文リスト
- Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - M$^3$-Impute: Mask-guided Representation Learning for Missing Value Imputation [12.174699459648842]
M$3$-Imputeは、不足情報や新しいマスキング手法との相関性を明示的に活用することを目的としている。
実験の結果,M$3$-Imputeは平均20点,第2bのMAEスコアが4点であった。
論文 参考訳(メタデータ) (2024-10-11T13:25:32Z) - On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Beyond Human Data: Scaling Self-Training for Problem-Solving with Language Models [115.501751261878]
人為的なデータに基づく微調整言語モデル(LM)が普及している。
我々は、スカラーフィードバックにアクセス可能なタスクにおいて、人間のデータを超えることができるかどうか検討する。
ReST$EM$はモデルサイズに好適にスケールし、人間のデータのみによる微調整を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2023-12-11T18:17:43Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - MissDAG: Causal Discovery in the Presence of Missing Data with
Continuous Additive Noise Models [78.72682320019737]
不完全な観測データから因果発見を行うため,MissDAGと呼ばれる一般的な手法を開発した。
MissDAGは、期待-最大化の枠組みの下で観測の可視部分の期待される可能性を最大化する。
各種因果探索アルゴリズムを組み込んだMissDAGの柔軟性について,広範囲なシミュレーションと実データ実験により検証した。
論文 参考訳(メタデータ) (2022-05-27T09:59:46Z) - To Impute or not to Impute? -- Missing Data in Treatment Effect
Estimation [84.76186111434818]
我々は,MCM(Mixed Con founded missingness)と呼ばれる新しい欠損機構を同定し,ある欠損度が治療選択を判断し,他の欠損度が治療選択によって決定されることを示した。
本研究は,全てのデータを因果的に入力すると,不偏推定を行うために必要な情報を効果的に除去するので,処理効果のモデルが貧弱になることを示す。
私たちのソリューションは選択的計算であり、CMMからの洞察を使って、どの変数をインプットすべきで、どの変数をインプットすべきでないかを正確に知らせる。
論文 参考訳(メタデータ) (2022-02-04T12:08:31Z) - Model-based Clustering with Missing Not At Random Data [0.8777702580252754]
我々は,MNARデータを含む,非常に一般的なタイプの欠落データを扱うために設計されたモデルベースのクラスタリングアルゴリズムを提案する。
いくつかのMNARモデルについて議論し、不足の原因は、欠落変数自体の値とクラスメンバーシップの両方に依存する。
MNARzと呼ばれる特定のMNARモデルに注目する。
論文 参考訳(メタデータ) (2021-12-20T09:52:12Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - VAEs in the Presence of Missing Data [6.397263087026567]
我々は、欠落したデータを生成する汚職過程の新しい潜伏変数モデルを開発し、対応する抽出可能なエビデンスローバウンド(ELBO)を導出する。
我々のモデルは実装が簡単で、無作為データ(MCAR)と無作為データ(MNAR)の両方を処理でき、高次元入力にスケールし、データ要素が欠落しているか否かの指標変数にVAEエンコーダとデコーダの両方にアクセスできる。
MNISTとSVHNデータセットでは、既存のアプローチと比較して、観測データの辺りのログライクな改善と、データ計算の欠如の改善が示されている。
論文 参考訳(メタデータ) (2020-06-09T14:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。