論文の概要: No imputation without representation
- arxiv url: http://arxiv.org/abs/2206.14254v1
- Date: Tue, 28 Jun 2022 19:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 19:39:29.470562
- Title: No imputation without representation
- Title(参考訳): 表現なしの計算なし
- Authors: Oliver Urs Lenz, Daniel Peralta, Chris Cornelis
- Abstract要約: 実生活データセット上の3つの計算戦略と様々な分類アルゴリズムの実験を行った。
欠落指標は一般的に分類性能を高める。
平均的な数値属性の計算は、欠落した値から情報のいくつかを保存できるかもしれないと我々は主張する。
- 参考スコア(独自算出の注目度): 3.6095388702618414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: By filling in missing values in datasets, imputation allows these datasets to
be used with algorithms that cannot handle missing values by themselves.
However, missing values may in principle contribute useful information that is
lost through imputation. The missing-indicator approach can be used in
combination with imputation to instead represent this information as a part of
the dataset. There are several theoretical considerations why
missing-indicators may or may not be beneficial, but there has not been any
large-scale practical experiment on real-life datasets to test this question
for machine learning predictions. We perform this experiment for three
imputation strategies and a range of different classification algorithms, on
the basis of twenty real-life datasets. We find that on these datasets,
missing-indicators generally increase classification performance. In addition,
we find no evidence for most algorithms that nearest neighbour and iterative
imputation lead to better performance than simple mean/mode imputation.
Therefore, we recommend the use of missing-indicators with mean/mode imputation
as a safe default, with the caveat that for decision trees, pruning is
necessary to prevent overfitting. In a follow-up experiment, we determine
attribute-specific missingness thresholds for each classifier above which
missing-indicators are more likely than not to increase classification
performance, and observe that these thresholds are much lower for categorical
than for numerical attributes. Finally, we argue that mean imputation of
numerical attributes may preserve some of the information from missing values,
and we show that in the absence of missing-indicators, it can similarly be
useful to apply mean imputation to one-hot encoded categorical attributes
instead of mode imputation.
- Abstract(参考訳): データセットに欠落した値を埋め込むことで、インプテーションはこれらのデータセットを、それ自身で欠落した値を処理できないアルゴリズムで使用することができる。
しかし、欠落した値は原則として、インプテーションによって失われる有用な情報をもたらす可能性がある。
missing-indicatorアプローチはインプテーションと組み合わせて、代わりにこの情報をデータセットの一部として表現することができる。
欠落指標が有益であるかどうかについては理論的考察がいくつかあるが、機械学習予測のためにこの問題を検証するための実生活データセットに関する大規模な実践実験は行われていない。
この実験は、20の実生活データセットに基づいて、3つの計算戦略と様々な分類アルゴリズムに対して実施する。
これらのデータセットでは、欠落指標が一般的に分類性能を向上させることが分かる。
さらに,近距離および反復的インプテーションが単純な平均/モードインプテーションよりも優れた性能をもたらすという,ほとんどのアルゴリズムの証拠は見つからなかった。
したがって,決定木では過度に収まるのを防ぐためにプルーニングが必要であることに留意して,平均/モードのインパクションを持つ欠落指標を安全なデフォルトとして使用することを推奨する。
フォローアップ実験では,欠落指標が分類性能を増加させるよりも高い確率の分類器毎に属性特異的欠落閾値を判定し,これらの閾値が数値属性よりも分類的にはるかに低いことを確認する。
最後に、数値属性の平均インプテーションは、欠落した値からの情報の一部を保存する可能性があり、欠落インジケータがなければ、モードインプテーションの代わりに1つのホットエンコードされたカテゴリ属性に平均インプテーションを適用するのも同様に有用であることを示す。
関連論文リスト
- Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Polar Encoding: A Simple Baseline Approach for Classification with
Missing Values [1.9336815376402723]
polar エンコーディングは $[0,1]$-valued 属性の表現で、値が欠けている。
計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムに欠落した値を分割する方法を選択させる。
その結果, 偏極符号化性能は, チェーン型方程式 (MICE) による数値計算や, 復号化オートエンコーダ (MIDAS) による数値計算よりも優れていた。
論文 参考訳(メタデータ) (2022-10-04T20:56:24Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - Riemannian classification of EEG signals with missing values [67.90148548467762]
本稿では脳波の分類に欠落したデータを扱うための2つの方法を提案する。
第1のアプローチでは、インプットされたデータと$k$-nearestの隣人アルゴリズムとの共分散を推定し、第2のアプローチでは、期待最大化アルゴリズム内で観測データの可能性を活用することにより、観測データに依存する。
その結果, 提案手法は観測データに基づく分類よりも優れており, 欠落したデータ比が増大しても高い精度を維持することができることがわかった。
論文 参考訳(メタデータ) (2021-10-19T14:24:50Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - PC-GAIN: Pseudo-label Conditional Generative Adversarial Imputation
Networks for Incomplete Data [19.952411963344556]
PC-GAIN(PC-GAIN)は、PC-GAIN(PC-GAIN)と呼ばれる新しい教師なしデータ計算法である。
まず,低損失率データのサブセットに含まれる潜在的なカテゴリ情報を学習するための事前学習手順を提案する。
そして、合成擬似ラベルを用いて補助分類器を決定する。
論文 参考訳(メタデータ) (2020-11-16T08:08:26Z) - Handling Missing Data with Graph Representation Learning [62.59831675688714]
特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。
GRAPEでは,特徴計算をエッジレベル予測タスク,ラベル予測をノードレベル予測タスクとして定式化する。
9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。
論文 参考訳(メタデータ) (2020-10-30T17:59:13Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - On the consistency of supervised learning with missing values [0.0]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
予測における2つのアプローチの整合性を示す。顕著な結果として,学習前の平均値が欠落した値が情報的でない場合には,その平均値が一貫するなど,一定値で計算する方法が広く用いられている。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。