論文の概要: Deep Unsupervised Feature Selection by Discarding Nuisance and
Correlated Features
- arxiv url: http://arxiv.org/abs/2110.05306v1
- Date: Mon, 11 Oct 2021 14:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 14:46:58.980604
- Title: Deep Unsupervised Feature Selection by Discarding Nuisance and
Correlated Features
- Title(参考訳): ニュアンスと相関特徴の破棄による深い教師なし特徴選択
- Authors: Uri Shaham, Ofir Lindenbaum, Jonathan Svirsky and Yuval Kluger
- Abstract要約: 現代のデータセットには、相関した特徴とニュアンスな特徴の大きなサブセットが含まれている。
多数のニュアンス特徴が存在する場合、ラプラシアンは選択された特徴の部分集合上で計算されなければならない。
相関する特徴に対処するためにオートエンコーダアーキテクチャを使用し、選択した特徴のサブセットからデータを再構成するように訓練した。
- 参考スコア(独自算出の注目度): 7.288137686773523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern datasets often contain large subsets of correlated features and
nuisance features, which are not or loosely related to the main underlying
structures of the data. Nuisance features can be identified using the Laplacian
score criterion, which evaluates the importance of a given feature via its
consistency with the Graph Laplacians' leading eigenvectors. We demonstrate
that in the presence of large numbers of nuisance features, the Laplacian must
be computed on the subset of selected features rather than on the complete
feature set. To do this, we propose a fully differentiable approach for
unsupervised feature selection, utilizing the Laplacian score criterion to
avoid the selection of nuisance features. We employ an autoencoder architecture
to cope with correlated features, trained to reconstruct the data from the
subset of selected features. Building on the recently proposed concrete layer
that allows controlling for the number of selected features via architectural
design, simplifying the optimization process. Experimenting on several
real-world datasets, we demonstrate that our proposed approach outperforms
similar approaches designed to avoid only correlated or nuisance features, but
not both. Several state-of-the-art clustering results are reported.
- Abstract(参考訳): 現代のデータセットは、しばしば相関した特徴と迷惑な特徴の大規模なサブセットを含んでおり、それらはデータの主要な基盤構造とは無関係または緩やかに関係している。
ニュアサンス特徴は、グラフラプラシアンの主要な固有ベクトルとの一貫性を通じて、与えられた特徴の重要性を評価するラプラシアンスコア基準を用いて識別することができる。
多数のニュアンス特徴が存在する場合、ラプラシアンは完全な特徴集合ではなく、選択された特徴の部分集合上で計算されなければならない。
そこで我々は,Laplacian score criterion を用いた教師なし特徴選択のための完全微分可能なアプローチを提案し,ニュアンス特徴の選択を回避する。
相関する特徴に対処するためにオートエンコーダアーキテクチャを使用し、選択した特徴のサブセットからデータを再構成するように訓練した。
アーキテクチャ設計を通じて選択された機能の数を制御し、最適化プロセスを簡素化する、最近提案されたコンクリート層の上に構築する。
いくつかの実世界のデータセットで実験した結果,提案手法は相関性やニュアサンスのみを避けるために設計されたアプローチよりも優れており,その両方ではない。
最先端のクラスタリング結果がいくつか報告されている。
関連論文リスト
- A Refreshed Similarity-based Upsampler for Direct High-Ratio Feature Upsampling [54.05517338122698]
本稿では,セマンティック・アウェアとディテール・アウェアの両方の観点から,明示的に制御可能なクエリキー機能アライメントを提案する。
また,モーザイクアーティファクトを緩和するのには単純だが有効であるHR特徴量に対して,きめ細かな近傍選択戦略を開発した。
提案するReSFUフレームワークは,異なるセグメンテーションアプリケーション上での良好な性能を一貫して達成する。
論文 参考訳(メタデータ) (2024-07-02T14:12:21Z) - Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation [22.87577374767465]
ニューロシンボリックレンズを用いて特徴選択を再構成し、短時間かつ効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。
本稿ではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータ収集手法を提案する。
収集したデータに基づいて,効率的な探索のために,特徴選択の知性を連続的な埋め込み空間に保存するエンコーダ・デコーダ・評価学習パラダイムを開発した。
論文 参考訳(メタデータ) (2024-04-26T05:01:08Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Unsupervised Features Ranking via Coalitional Game Theory for
Categorical Data [0.28675177318965034]
教師なしの機能選択は、機能の数を減らすことを目的としている。
導出特徴の選択は、冗長率を下げる競合する手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-05-17T14:17:36Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Top-$k$ Regularization for Supervised Feature Selection [11.927046591097623]
教師付き特徴選択のための新しい,シンプルで効果的な正規化手法である Top-k$ regularization を導入する。
上位$kの正規化は、教師付き特徴選択に有効で安定であることを示す。
論文 参考訳(メタデータ) (2021-06-04T01:12:47Z) - Adaptive Graph-based Generalized Regression Model for Unsupervised
Feature Selection [11.214334712819396]
非相関的かつ識別的特徴の選択は、教師なしの機能選択の重要な問題である。
非相関制約と $ell_2,1$-norm 正規化によって課される新しい一般化回帰モデルを提案する。
それは同時に同じ近所に属するこれらのデータ ポイントの分散を減らすこと無相関および差別的な特徴を選ぶことができます。
論文 参考訳(メタデータ) (2020-12-27T09:07:26Z) - Infinite Feature Selection: A Graph-based Feature Filtering Approach [78.63188057505012]
グラフ内の経路として特徴のサブセットを考慮したフィルタリング機能選択フレームワークを提案する。
無限に進むことで、選択プロセスの計算複雑性を制限できる。
Inf-FSはほとんどどんな状況でも、つまり、保持するフィーチャの数が優先順位に固定されているときに、より良く振る舞うことを示す。
論文 参考訳(メタデータ) (2020-06-15T07:20:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。