論文の概要: No imputation without representation
- arxiv url: http://arxiv.org/abs/2206.14254v4
- Date: Wed, 30 Oct 2024 15:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:25:00.652901
- Title: No imputation without representation
- Title(参考訳): 表現なしの計算なし
- Authors: Oliver Urs Lenz, Daniel Peralta, Chris Cornelis,
- Abstract要約: 欠落した値は、原則として、計算によって失われる有用な情報に寄与する可能性がある。
missing-indicatorアプローチは、インプットと組み合わせて、この情報をデータセットの一部として表現することが可能になる。
この実験は、20の実生活データセットに基づいて、3つの計算戦略と様々な分類アルゴリズムに対して実施する。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License:
- Abstract: By filling in missing values in datasets, imputation allows these datasets to be used with algorithms that cannot handle missing values by themselves. However, missing values may in principle contribute useful information that is lost through imputation. The missing-indicator approach can be used in combination with imputation to instead represent this information as a part of the dataset. There are several theoretical considerations why missing-indicators may or may not be beneficial, but there has not been any large-scale practical experiment on real-life datasets to test this question for machine learning predictions. We perform this experiment for three imputation strategies and a range of different classification algorithms, on the basis of twenty real-life datasets. In a follow-up experiment, we determine attribute-specific missingness thresholds for each classifier above which missing-indicators are more likely than not to increase classification performance. And in a second follow-up experiment, we evaluate numerical imputation of one-hot encoded categorical attributes. We reach the following conclusions. Firstly, missing-indicators generally increase classification performance. Secondly, with missing-indicators, nearest neighbour and iterative imputation do not lead to better performance than simple mean/mode imputation. Thirdly, for decision trees, pruning is necessary to prevent overfitting. Fourthly, the thresholds above which missing-indicators are more likely than not to improve performance are lower for categorical attributes than for numerical attributes. Lastly, mean imputation of numerical attributes preserves some of the information from missing values. Consequently, when not using missing-indicators it can be advantageous to apply mean imputation to one-hot encoded categorical attributes instead of mode imputation.
- Abstract(参考訳): データセットに欠落した値を埋めることによって、計算によってこれらのデータセットを、欠落した値を自分で処理できないアルゴリズムで使用することができる。
しかし、欠落した値は原則として、計算によって失われる有用な情報に寄与する可能性がある。
不足指標のアプローチは、インプットと組み合わせることで、その情報をデータセットの一部として表現することができる。
欠落指標が有益であるかどうかについては理論的考察がいくつかあるが、機械学習の予測のためにこの問題を検証するための実生活データセットに関する大規模な実践実験は行われていない。
この実験は、20の実生活データセットに基づいて、3つの計算戦略と様々な分類アルゴリズムに対して実施する。
追従実験では、上記の各分類器に対して、欠落指標が分類性能を向上しない確率が高い属性特異的欠落閾値を決定する。
第2の追従実験では, 1ホットエンコードされた分類属性の数値計算を行った。
私たちは以下の結論に達した。
第一に、欠落した指標は一般的に分類性能を高める。
第二に、欠落した指標、最も近い隣人、反復的な計算では、単純な平均/モードの計算よりも性能が良くない。
第三に、決定木では、過度な適合を防ぐために刈り取りが必要である。
第4に、欠落指標が性能を向上しない傾向にある閾値は、数値属性よりも分類属性の方が低い。
最後に、数値属性の平均計算は、欠落した値からの情報の一部を保存する。
したがって、欠落指標を使用しない場合には、モード計算の代わりに1ホットエンコードされたカテゴリ属性に平均計算を適用するのが有利である。
関連論文リスト
- On the Performance of Imputation Techniques for Missing Values on Healthcare Datasets [0.0]
値やデータの欠落は、実世界のデータセット、特に医療データの一般的な特徴のひとつだ。
本研究は, 平均計算法, 中間計算法, 最終観測法 (LOCF) 計算法, K-Nearest Neighbor (KNN) 計算法, 補間計算法, ミスフォレスト計算法, 連鎖方程式による多重計算法の比較である。
その結果,ミスフォレスト・インキュベーションが最善であり,MICEインキュベーションが最善であることがわかった。
論文 参考訳(メタデータ) (2024-03-13T18:07:17Z) - Iterative missing value imputation based on feature importance [6.300806721275004]
我々は特徴量を考慮した計算手法を考案した。
このアルゴリズムは、反復的に行列補完と特徴重要学習を行い、具体的には、特徴重要度を含む充足損失に基づいて行列補完を行う。
これらのデータセットの結果は,提案手法が既存の5つの計算アルゴリズムより優れていることを一貫して示している。
論文 参考訳(メタデータ) (2023-11-14T09:03:33Z) - Polar Encoding: A Simple Baseline Approach for Classification with Missing Values [1.7205106391379026]
polar エンコーディングは $[0,1]$-valued 属性の表現で、値が欠けている。
計算を必要とせず、欠落した値が非欠落値と等価であることを保証し、決定木アルゴリズムに欠落した値を分割する方法を選択させる。
結果として得られた分類性能において、極符号化は最先端の戦略である「連鎖方程式による多重計算」や「復号化オートエンコーダによる多重計算」よりも優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-10-04T20:56:24Z) - Class-Level Logit Perturbation [0.0]
特徴摂動とラベル摂動は、様々なディープラーニングアプローチにおいて有用であることが証明されている。
シングルラベルとマルチラベルの両方の分類タスクに対して,摂動ロジットを明示的に学習するための新しい手法が提案されている。
logit上でしか摂動しないため、既存の分類アルゴリズムと融合するためのプラグインとして使用できる。
論文 参考訳(メタデータ) (2022-09-13T00:49:32Z) - Benchmarking missing-values approaches for predictive models on health
databases [47.187609203210705]
我々は、大規模健康データベースに焦点を当てた予測モデルにおいて、不足値戦略のベンチマークを行う。
教師あり機械学習における欠落値に対するネイティブサポートは、計算コストをはるかに少なくして最先端の計算計算よりも優れていると予測できる。
論文 参考訳(メタデータ) (2022-02-17T09:40:04Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z) - Minimax Active Learning [61.729667575374606]
アクティブラーニングは、人間のアノテーションによってラベル付けされる最も代表的なサンプルをクエリすることによって、ラベル効率の高いアルゴリズムを開発することを目指している。
現在のアクティブラーニング技術は、最も不確実なサンプルを選択するためにモデルの不確実性に頼るか、クラスタリングを使うか、最も多様なラベルのないサンプルを選択するために再構築する。
我々は,不確実性と多様性を両立させる半教師付きミニマックスエントロピーに基づく能動学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-12-18T19:03:40Z) - Handling Missing Data with Graph Representation Learning [62.59831675688714]
特徴量計算とラベル予測のためのグラフベースのフレームワークであるGRAPEを提案する。
GRAPEでは,特徴計算をエッジレベル予測タスク,ラベル予測をノードレベル予測タスクとして定式化する。
9つのベンチマークデータセットによる実験結果から、GRAPEは計算タスクの平均絶対誤差を20%低く、ラベル予測タスクを10%低くすることがわかった。
論文 参考訳(メタデータ) (2020-10-30T17:59:13Z) - Don't Wait, Just Weight: Improving Unsupervised Representations by
Learning Goal-Driven Instance Weights [92.16372657233394]
自己教師付き学習技術は、役に立たないデータから有用な表現を学習することで、パフォーマンスを向上させることができる。
ベイジアンのインスタンスの重み付けを学習することで、下流の分類精度を向上させることができることを示す。
本研究では,STL-10 と Visual Decathlon の自己教師型回転予測タスクを用いて,BetaDataWeighter の評価を行った。
論文 参考訳(メタデータ) (2020-06-22T15:59:32Z) - Learning with Out-of-Distribution Data for Audio Classification [60.48251022280506]
我々は,OODインスタンスを破棄するよりも,特定のOODインスタンスを検出・復号化することで,学習に肯定的な影響を及ぼすことを示す。
提案手法は,畳み込みニューラルネットワークの性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-02-11T21:08:06Z) - On the consistency of supervised learning with missing values [15.666860186278782]
多くのアプリケーション設定において、データは分析を難しくするエントリを欠いている。
ここでは、教師あり学習の設定について考察する。トレーニングデータとテストデータの両方に、欠落した値が現れるときにターゲットを予測する。
本研究では,学習前の平均値など,一定値が得られない場合に一定であることを示す。
論文 参考訳(メタデータ) (2019-02-19T07:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。