論文の概要: Which Imputation Fits Which Feature Selection Method? A Survey-Based Simulation Study
- arxiv url: http://arxiv.org/abs/2412.13570v1
- Date: Wed, 18 Dec 2024 07:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-19 13:23:58.026072
- Title: Which Imputation Fits Which Feature Selection Method? A Survey-Based Simulation Study
- Title(参考訳): どれが特徴選択法か? : サーベイベースシミュレーションによる検討
- Authors: Jakob Schwerter, Andrés Romero, Florian Dumpert, Markus Pauly,
- Abstract要約: 特徴重要度尺度は、通常、特徴選択とモデルにおける結果変数に対する特徴の影響を評価するために考慮される。
典型的な解決策は、学習方法を適用する前に、欠落したデータをインプットすることである。
我々は、ランダムフォレスト(Random Forest)とXGBoost(XGBoost)の2つの最も一般的なツリーベース手法と、正規化を伴う解釈可能な線形モデルを考える。
- 参考スコア(独自算出の注目度): 4.335350817722218
- License:
- Abstract: Tree-based learning methods such as Random Forest and XGBoost are still the gold-standard prediction methods for tabular data. Feature importance measures are usually considered for feature selection as well as to assess the effect of features on the outcome variables in the model. This also applies to survey data, which are frequently encountered in the social sciences and official statistics. These types of datasets often present the challenge of missing values. The typical solution is to impute the missing data before applying the learning method. However, given the large number of possible imputation methods available, the question arises as to which should be chosen to achieve the 'best' reflection of feature importance and feature selection in subsequent analyses. In the present paper, we investigate this question in a survey-based simulation study for eight state-of-the art imputation methods and three learners. The imputation methods comprise listwise deletion, three MICE options, four \texttt{missRanger} options as well as the recently proposed mixGBoost imputation approach. As learners, we consider the two most common tree-based methods, Random Forest and XGBoost, and an interpretable linear model with regularization.
- Abstract(参考訳): ランダムフォレスト(Random Forest)やXGBoost(XGBoost)のような木に基づく学習手法は、表データのゴールドスタンダードな予測方法である。
特徴重要度尺度は、通常、特徴選択とモデルにおける結果変数に対する特徴の影響を評価するために考慮される。
これはまた、社会科学や公式統計学でよく見られる調査データにも適用される。
この種のデータセットは、しばしば欠落した値の課題を示す。
典型的な解決策は、学習方法を適用する前に、欠落したデータをインプットすることである。
しかし, インパルス法が多数存在することから, 今後の分析において, 特徴量や特徴選択の「最良の」反映を達成するために, どちらが選択されるべきかという疑問が生じる。
本稿では,8つの最先端計算手法と3人の学習者を対象とした調査に基づくシミュレーション研究において,この問題を考察する。
命令方法はリストワイズ削除、MICEオプション3つ、texttt{missRanger}オプション4つ、最近提案されたmixGBoost命令アプローチで構成される。
学習者として、ランダムフォレスト(Random Forest)とXGBoost(XGBoost)という2つの最も一般的なツリーベース手法と、正規化を伴う解釈可能な線形モデルを考える。
関連論文リスト
- Utilising Explainable Techniques for Quality Prediction in a Complex Textiles Manufacturing Use Case [0.0]
本稿では, 複合織物製造データセットにおける製品故障事例を説明可能な手法を用いて分類する手法を開発した。
精度と説明可能性のトレードオフを調べたところ,3種類の木に基づく分類アルゴリズムが評価された。
論文 参考訳(メタデータ) (2024-07-26T06:50:17Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Learning to Maximize Mutual Information for Dynamic Feature Selection [13.821253491768168]
本稿では,現在利用可能な情報に基づいてモデルを逐次クエリする動的特徴選択(DFS)問題を考察する。
条件付き相互情報に基づいて,特徴を欲求的に選択する,よりシンプルなアプローチについて検討する。
提案手法は,最適性を訓練した際の欲求を回復し,既存の特徴選択法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-02T08:31:56Z) - Lexicase Selection at Scale [5.4968949435821735]
語彙選択(Lexicase selection)は、ランダムにシャッフルされたデータストリームで個々のテストケースを評価する意味認識親選択法である。
語彙選択とそのバリエーションの潜在的な欠点の1つは、選択手順が単一のデータストリームでトレーニングケースを評価する必要があることである。
そこで本研究では,レキシケース選択と重み付きシャッフルを組み合わせた高速レキシケース選択法を提案する。
論文 参考訳(メタデータ) (2022-08-23T03:58:47Z) - Multivariate feature ranking of gene expression data [62.997667081978825]
ペアワイズ相関とペアワイズ整合性に基づく2つの新しい多変量特徴ランキング手法を提案する。
提案手法は, クラスタリング変動, チ・スクエアド, 相関, 情報ゲイン, ReliefF および Significance の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-03T17:19:53Z) - Auto-weighted Multi-view Feature Selection with Graph Optimization [90.26124046530319]
グラフ学習に基づく新しい教師なしマルチビュー特徴選択モデルを提案する。
1) 特徴選択過程において, 異なる視点で共有されたコンセンサス類似度グラフが学習される。
各種データセットを用いた実験により,提案手法が最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-11T03:25:25Z) - Variable selection with missing data in both covariates and outcomes:
Imputation and machine learning [1.0333430439241666]
欠落したデータ問題は、健康研究で普遍的です。
機械学習はパラメトリックな仮定を弱める。
XGBoostとBARTは、さまざまな設定で最高のパフォーマンスを発揮します。
論文 参考訳(メタデータ) (2021-04-06T20:18:29Z) - Feature Selection Methods for Cost-Constrained Classification in Random
Forests [3.4806267677524896]
コストに敏感な特徴選択は、機能選択の問題であり、モデルに含めるための個々のコストを上昇させる。
ランダムフォレスト(Random Forests)は、機能選択において特に困難な問題を定義している。
小木構造から特徴を選択する新しい高速多変量特徴選択法であるShallow Tree Selectionを提案する。
論文 参考訳(メタデータ) (2020-08-14T11:39:52Z) - Evaluating Explainable AI: Which Algorithmic Explanations Help Users
Predict Model Behavior? [97.77183117452235]
我々は、モデル解釈性に対するアルゴリズム的説明の影響を分離するために、人体テストを実施している。
方法の有効性の明確な証拠はごく少数にみえる。
以上の結果から,説明がシミュラビリティにどのように影響するかの信頼性と包括的評価が得られた。
論文 参考訳(メタデータ) (2020-05-04T20:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。