論文の概要: No imputation without representation
- arxiv url: http://arxiv.org/abs/2206.14254v1
- Date: Tue, 28 Jun 2022 19:12:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-30 19:39:29.470562
- Title: No imputation without representation
- Title(参考訳): 表現なしの計算なし
- Authors: Oliver Urs Lenz, Daniel Peralta, Chris Cornelis
- Abstract要約: 実生活データセット上の3つの計算戦略と様々な分類アルゴリズムの実験を行った。
欠落指標は一般的に分類性能を高める。
平均的な数値属性の計算は、欠落した値から情報のいくつかを保存できるかもしれないと我々は主張する。
- 参考スコア(独自算出の注目度): 3.6095388702618414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: By filling in missing values in datasets, imputation allows these datasets to
be used with algorithms that cannot handle missing values by themselves.
However, missing values may in principle contribute useful information that is
lost through imputation. The missing-indicator approach can be used in
combination with imputation to instead represent this information as a part of
the dataset. There are several theoretical considerations why
missing-indicators may or may not be beneficial, but there has not been any
large-scale practical experiment on real-life datasets to test this question
for machine learning predictions. We perform this experiment for three
imputation strategies and a range of different classification algorithms, on
the basis of twenty real-life datasets. We find that on these datasets,
missing-indicators generally increase classification performance. In addition,
we find no evidence for most algorithms that nearest neighbour and iterative
imputation lead to better performance than simple mean/mode imputation.
Therefore, we recommend the use of missing-indicators with mean/mode imputation
as a safe default, with the caveat that for decision trees, pruning is
necessary to prevent overfitting. In a follow-up experiment, we determine
attribute-specific missingness thresholds for each classifier above which
missing-indicators are more likely than not to increase classification
performance, and observe that these thresholds are much lower for categorical
than for numerical attributes. Finally, we argue that mean imputation of
numerical attributes may preserve some of the information from missing values,
and we show that in the absence of missing-indicators, it can similarly be
useful to apply mean imputation to one-hot encoded categorical attributes
instead of mode imputation.
- Abstract(参考訳): データセットに欠落した値を埋め込むことで、インプテーションはこれらのデータセットを、それ自身で欠落した値を処理できないアルゴリズムで使用することができる。
しかし、欠落した値は原則として、インプテーションによって失われる有用な情報をもたらす可能性がある。
missing-indicatorアプローチはインプテーションと組み合わせて、代わりにこの情報をデータセットの一部として表現することができる。
欠落指標が有益であるかどうかについては理論的考察がいくつかあるが、機械学習予測のためにこの問題を検証するための実生活データセットに関する大規模な実践実験は行われていない。
この実験は、20の実生活データセットに基づいて、3つの計算戦略と様々な分類アルゴリズムに対して実施する。
これらのデータセットでは、欠落指標が一般的に分類性能を向上させることが分かる。
さらに,近距離および反復的インプテーションが単純な平均/モードインプテーションよりも優れた性能をもたらすという,ほとんどのアルゴリズムの証拠は見つからなかった。
したがって,決定木では過度に収まるのを防ぐためにプルーニングが必要であることに留意して,平均/モードのインパクションを持つ欠落指標を安全なデフォルトとして使用することを推奨する。
フォローアップ実験では,欠落指標が分類性能を増加させるよりも高い確率の分類器毎に属性特異的欠落閾値を判定し,これらの閾値が数値属性よりも分類的にはるかに低いことを確認する。
最後に、数値属性の平均インプテーションは、欠落した値からの情報の一部を保存する可能性があり、欠落インジケータがなければ、モードインプテーションの代わりに1つのホットエンコードされたカテゴリ属性に平均インプテーションを適用するのも同様に有用であることを示す。
関連論文リスト
- On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Polar Encoding: A Simple Baseline Approach for Classification with Missing Values [1.7205106391379026]
polar エンコーディングは $[0,1]$-valued 属性の表現で、値が欠けている。
計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムに欠落した値を分割する方法を選択させる。
結果として得られた分類性能において、極符号化は最先端の戦略である「連鎖方程式による多重計算」や「復号化オートエンコーダによる多重計算」よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-10-04T20:56:24Z) - Class-Level Logit Perturbation [0.0]
特徴摂動とラベル摂動は、様々なディープラーニングアプローチにおいて有用であることが証明されている。
シングルラベルとマルチラベルの両方の分類タスクに対して,摂動ロジットを明示的に学習するための新しい手法が提案されている。
logit上でしか摂動しないため、既存の分類アルゴリズムと融合するためのプラグインとして使用できる。
論文 参考訳(メタデータ) (2022-09-13T00:49:32Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Handling Missing Data with Graph Representation Learning [62.59831675688714]
特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。
GRAPEでは,特徴計算をエッジレベル予測タスク,ラベル予測をノードレベル予測タスクとして定式化する。
9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。
論文 参考訳(メタデータ) (2020-10-30T17:59:13Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。