論文の概要: The best way to select features?
- arxiv url: http://arxiv.org/abs/2005.12483v1
- Date: Tue, 26 May 2020 02:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:48:21.556842
- Title: The best way to select features?
- Title(参考訳): 機能を選択する最善の方法は?
- Authors: Xin Man and Ernest Chan
- Abstract要約: MDA、LIME、SHAPの3つの特徴選択アルゴリズムを比較する。
LIME は MDA よりも安定しており、最低でも SHAP と同程度安定している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Feature selection in machine learning is subject to the intrinsic randomness
of the feature selection algorithms (for example, random permutations during
MDA). Stability of selected features with respect to such randomness is
essential to the human interpretability of a machine learning algorithm. We
proposes a rank based stability metric called instability index to compare the
stabilities of three feature selection algorithms MDA, LIME, and SHAP as
applied to random forests. Typically, features are selected by averaging many
random iterations of a selection algorithm. Though we find that the variability
of the selected features does decrease as the number of iterations increases,
it does not go to zero, and the features selected by the three algorithms do
not necessarily converge to the same set. We find LIME and SHAP to be more
stable than MDA, and LIME is at least as stable as SHAP for the top ranked
features. Hence overall LIME is best suited for human interpretability.
However, the selected set of features from all three algorithms significantly
improves various predictive metrics out of sample, and their predictive
performances do not differ significantly. Experiments were conducted on
synthetic datasets, two public benchmark datasets, and on proprietary data from
an active investment strategy.
- Abstract(参考訳): 機械学習における特徴選択は、特徴選択アルゴリズムの固有ランダム性(例えば、mda中のランダムな置換)に従属する。
このようなランダム性に関する選択された特徴の安定性は、機械学習アルゴリズムの人間の解釈性に不可欠である。
本研究では,3つの特徴選択アルゴリズム MDA, LIME, SHAP の安定性をランダム森林に適用した場合の安定性指標である不安定度指標を提案する。
通常、特徴は選択アルゴリズムの多くのランダムイテレーションを平均することで選択される。
反復数の増加に伴って選択された特徴の変動性は減少するが、ゼロにはならず、3つのアルゴリズムによって選択された特徴は同じ集合に収束するとは限らない。
LIME と SHAP は MDA よりも安定であり,LIME は SHAP と同程度に安定である。
したがって、LIMEは人間の解釈に最適である。
しかし、3つのアルゴリズムから選択された特徴セットは、サンプルから得られる様々な予測指標を著しく改善し、それらの予測性能は著しく異なる。
実験は、合成データセット、2つの公開ベンチマークデータセット、およびアクティブ投資戦略によるプロプライエタリデータについて行われた。
関連論文リスト
- Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - An information theoretic approach to quantify the stability of feature
selection and ranking algorithms [0.0]
本稿では,ジェンセン・シャノンの発散に基づく情報理論のアプローチを提案し,そのロバスト性を定量化する。
他の安定度測度とは異なり、この測度は、完全なランクリスト、特徴サブセット、そしてより研究の少ない部分的なランクリストといった、異なるアルゴリズムの結果に適合する。
本研究では, この安定性指標を, 完全に制御された方法で生成したデータと併用し, 特徴ランク付けと選択結果に関するSpearmansランキング相関やKunchevasインデックスなどの一般的な指標と比較する。
論文 参考訳(メタデータ) (2024-02-07T22:17:37Z) - A Tent L\'evy Flying Sparrow Search Algorithm for Feature Selection: A
COVID-19 Case Study [1.6436293069942312]
情報科学の急速な発展によって引き起こされる「次元のカルス」は、大きなデータセットを扱う際に悪影響を及ぼす可能性がある。
本研究では,スナロー探索アルゴリズム(SSA)の変種であるTent L'evy Flying Sparrow Searchアルゴリズム(TFSSA)を提案する。
TFSSAは、分類のためにパッキングパターンにおける機能の最も優れたサブセットを選択するために使用される。
論文 参考訳(メタデータ) (2022-09-20T15:12:10Z) - Optimal Algorithms for Mean Estimation under Local Differential Privacy [55.32262879188817]
そこで本研究では,PrivUnitが局所的プライベートな乱数化器群間の最適分散を実現することを示す。
また,ガウス分布に基づくPrivUnitの新たな変種も開発しており,数学的解析に適しており,同じ最適性保証を享受できる。
論文 参考訳(メタデータ) (2022-05-05T06:43:46Z) - Fair Feature Subset Selection using Multiobjective Genetic Algorithm [0.0]
フェアネスと精度を両立させる特徴部分選択手法を提案する。
モデル性能の指標としてF1-Scoreを用いる。
最も一般的なフェアネスベンチマークデータセットの実験では、進化的アルゴリズムを用いることで、フェアネスと精度のトレードオフを効果的に探索できることが示されている。
論文 参考訳(メタデータ) (2022-04-30T22:51:19Z) - Non-Elitist Selection Can Improve the Performance of Irace [0.8258451067861933]
本研究では,旅行セールスパーソン問題に対するアリコロニー最適化アルゴリズムのチューニング方法と2次代入問題について検討する。
実験結果から, テストベンチマークでは, iraceの既定選択よりも改善が見られた。
さらに, この結果から, アルゴリズムの動作を理解するため, 多様なアルゴリズム構成が得られることが示唆された。
論文 参考訳(メタデータ) (2022-03-17T10:34:30Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - A Systematic Characterization of Sampling Algorithms for Open-ended
Language Generation [71.31905141672529]
本稿では,自己回帰型言語モデルに広く採用されている祖先サンプリングアルゴリズムについて検討する。
エントロピー低減, 秩序保存, 斜面保全の3つの重要な特性を同定した。
これらの特性を満たすサンプリングアルゴリズムのセットが,既存のサンプリングアルゴリズムと同等に動作することがわかった。
論文 参考訳(メタデータ) (2020-09-15T17:28:42Z) - Supervised Feature Subset Selection and Feature Ranking for Multivariate
Time Series without Feature Extraction [78.84356269545157]
MTS分類のための教師付き特徴ランキングと特徴サブセット選択アルゴリズムを導入する。
MTSの既存の教師なし特徴選択アルゴリズムとは異なり、我々の手法は時系列から一次元特徴ベクトルを生成するために特徴抽出ステップを必要としない。
論文 参考訳(メタデータ) (2020-05-01T07:46:29Z) - Stepwise Model Selection for Sequence Prediction via Deep Kernel
Learning [100.83444258562263]
本稿では,モデル選択の課題を解決するために,新しいベイズ最適化(BO)アルゴリズムを提案する。
結果として得られる複数のブラックボックス関数の最適化問題を協調的かつ効率的に解くために,ブラックボックス関数間の潜在的な相関を利用する。
我々は、シーケンス予測のための段階的モデル選択(SMS)の問題を初めて定式化し、この目的のために効率的な共同学習アルゴリズムを設計し、実証する。
論文 参考訳(メタデータ) (2020-01-12T09:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。