論文の概要: A Comparison of Modeling Preprocessing Techniques
- arxiv url: http://arxiv.org/abs/2302.12042v2
- Date: Fri, 24 Feb 2023 02:18:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 15:47:10.755321
- Title: A Comparison of Modeling Preprocessing Techniques
- Title(参考訳): モデリング前処理技術の比較
- Authors: Tosan Johnson, Alice J. Liu, Syed Raza, Aaron McGuire
- Abstract要約: 本稿では,構造化データに対する予測性能の観点から,各種データ処理手法の性能を比較した。
様々な構造、相互作用、複雑さの3つのデータセットが構築された。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper compares the performance of various data processing methods in
terms of predictive performance for structured data. This paper also seeks to
identify and recommend preprocessing methodologies for tree-based binary
classification models, with a focus on eXtreme Gradient Boosting (XGBoost)
models. Three data sets of various structures, interactions, and complexity
were constructed, which were supplemented by a real-world data set from the
Lending Club. We compare several methods for feature selection, categorical
handling, and null imputation. Performance is assessed using relative
comparisons among the chosen methodologies, including model prediction
variability. This paper is presented by the three groups of preprocessing
methodologies, with each section consisting of generalized observations. Each
observation is accompanied by a recommendation of one or more preferred
methodologies. Among feature selection methods, permutation-based feature
importance, regularization, and XGBoost's feature importance by weight are not
recommended. The correlation coefficient reduction also shows inferior
performance. Instead, XGBoost importance by gain shows the most consistency and
highest caliber of performance. Categorical featuring encoding methods show
greater discrimination in performance among data set structures. While there
was no universal "best" method, frequency encoding showed the greatest
performance for the most complex data sets (Lending Club), but had the poorest
performance for all synthetic (i.e., simpler) data sets. Finally, missing
indicator imputation dominated in terms of performance among imputation
methods, whereas tree imputation showed extremely poor and highly variable
model performance.
- Abstract(参考訳): 本稿では,構造化データの予測性能の観点から様々なデータ処理手法の性能を比較する。
本稿では,eXtreme Gradient Boosting(XGBoost)モデルに着目し,ツリーベースバイナリ分類モデルの事前処理手法の同定と推奨を行う。
様々な構造、相互作用、複雑さの3つのデータセットが構築され、レンディングクラブの現実世界のデータセットによって補われた。
特徴選択,分類的ハンドリング,ヌル計算のいくつかの手法を比較した。
モデル予測変数を含む選択した手法の相対比較により性能を評価する。
本論文は,前処理方法論の3つのグループによって提示され,各セクションは一般化された観察によって構成される。
各観察には1つ以上の好ましい方法論が推奨されている。
特徴選択法のうち、置換に基づく特徴重要度、正規化、およびxgboostの特徴重要度は推奨されない。
相関係数の低減は性能の低下も示している。
代わりに、XGBoostの重要さは、最も一貫性があり、最高の性能を示している。
符号化手法の分類は、データセット構造間の性能の差別性を示す。
普遍的な "best" 方式は存在しなかったが、周波数符号化は最も複雑なデータセット (lending club) で最大の性能を示したが、すべての合成(すなわちより単純な)データセットでは最も性能が低かった。
最後に,木インプテーションは極めて貧弱で可変なモデル性能を示したが,指標インプテーションの欠如はインプテーション法の性能の面で支配的であった。
関連論文リスト
- Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case [0.0]
本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
精度と説明可能性のトレードオフを調べたところ,3種類の木に基づく分類アルゴリズムが評価された。
論文 参考訳(メタデータ) (2024-07-26T06:50:17Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - The choice of scaling technique matters for classification performance [6.745479230590518]
モノリシックモデルとアンサンブルモデルにおける5つのスケーリング手法が20の分類アルゴリズムの性能に与える影響を比較した。
その結果,ほとんどの場合,最高のスケーリング手法と最悪のスケーリング手法のパフォーマンス差は関連性があり,統計的に有意であることがわかった。
また,異なるスケーリング手法を考慮に入れたアンサンブルモデルの性能変動が,ベースモデルの性能変化によって予測される傾向があることを示す。
論文 参考訳(メタデータ) (2022-12-23T13:51:45Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - Ensemble Classifier Design Tuned to Dataset Characteristics for Network
Intrusion Detection [0.0]
データセットのクラスオーバーラップ問題に対処する2つの新しいアルゴリズムが提案されている。
提案手法は二進分類と多進分類の両方で評価される。
論文 参考訳(メタデータ) (2022-05-08T21:06:42Z) - Performance and Interpretability Comparisons of Supervised Machine
Learning Algorithms: An Empirical Study [3.7881729884531805]
論文は発見に基づく方法で整理され、各セクションが一般的な結論を提供する。
全体として、XGBとFFNNは競争力があり、FFNNはスムーズなモデルでより良いパフォーマンスを示した。
RFは一般には良好に機能せず,文献で確認された。
論文 参考訳(メタデータ) (2022-04-27T12:04:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Does imputation matter? Benchmark for predictive models [5.802346990263708]
本稿では,予測モデルに対するデータ計算アルゴリズムの実証的効果を体系的に評価する。
主な貢献は,(1)実生活の分類タスクに基づく経験的ベンチマークのための一般的な手法の推薦である。
論文 参考訳(メタデータ) (2020-07-06T15:47:36Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。