論文の概要: A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning
- arxiv url: http://arxiv.org/abs/2311.05877v1
- Date: Fri, 10 Nov 2023 05:26:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 15:58:12.903390
- Title: A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning
- Title(参考訳): タブラルディープラーニングにおける特徴選択のための性能駆動ベンチマーク
- Authors: Valeriia Cherepanova, Roman Levin, Gowthami Somepalli, Jonas Geiping,
C. Bayan Bruss, Andrew Gordon Wilson, Tom Goldstein, Micah Goldblum
- Abstract要約: データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
- 参考スコア(独自算出の注目度): 131.2910403490434
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Academic tabular benchmarks often contain small sets of curated features. In
contrast, data scientists typically collect as many features as possible into
their datasets, and even engineer new features from existing ones. To prevent
overfitting in subsequent downstream modeling, practitioners commonly use
automated feature selection methods that identify a reduced subset of
informative features. Existing benchmarks for tabular feature selection
consider classical downstream models, toy synthetic datasets, or do not
evaluate feature selectors on the basis of downstream performance. Motivated by
the increasing popularity of tabular deep learning, we construct a challenging
feature selection benchmark evaluated on downstream neural networks including
transformers, using real datasets and multiple methods for generating
extraneous features. We also propose an input-gradient-based analogue of Lasso
for neural networks that outperforms classical feature selection methods on
challenging problems such as selecting from corrupted or second-order features.
- Abstract(参考訳): 学術的な表型ベンチマークは、しばしばキュレートされた機能の小さなセットを含む。
対照的に、データサイエンティストは通常、できるだけ多くの機能をデータセットに集め、既存のものから新しい機能を設計する。
その後の下流モデリングにおける過度な適合を防ぐため、実践者は一般的に、情報的特徴の少ないサブセットを識別する自動特徴選択手法を使用する。
既存の表型特徴選択ベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価しない。
表層深層学習の普及に触発されて、トランスフォーマーを含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築し、実際のデータセットと、外部特徴を生成する複数の方法を構築した。
また、ニューラルネットワークに対するLassoのインプット・グラディエント・ベース・アナログを提案する。これは、破損した特徴や二階特徴から選択するといった問題に対して古典的特徴選択法より優れている。
関連論文リスト
- Unveiling the Power of Sparse Neural Networks for Feature Selection [60.50319755984697]
スパースニューラルネットワーク(SNN)は、効率的な特徴選択のための強力なツールとして登場した。
動的スパーストレーニング(DST)アルゴリズムで訓練されたSNNは、平均して50%以上のメモリと55%以上のFLOPを削減できることを示す。
以上の結果から,DSTアルゴリズムで訓練したSNNによる特徴選択は,平均して50ドル以上のメモリと55%のFLOPを削減できることがわかった。
論文 参考訳(メタデータ) (2024-08-08T16:48:33Z) - Neuro-Symbolic Embedding for Short and Effective Feature Selection via Autoregressive Generation [22.87577374767465]
ニューロシンボリックレンズを用いて特徴選択を再構成し、短時間かつ効果的な特徴サブセットを特定することを目的とした新しい生成フレームワークを導入する。
本稿ではまず,特徴IDトークン,モデル性能,特徴サブセットの冗長度測定などからなる多数の特徴選択サンプルを自動的に収集するデータ収集手法を提案する。
収集したデータに基づいて,効率的な探索のために,特徴選択の知性を連続的な埋め込み空間に保存するエンコーダ・デコーダ・評価学習パラダイムを開発した。
論文 参考訳(メタデータ) (2024-04-26T05:01:08Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Supervised Feature Selection with Neuron Evolution in Sparse Neural
Networks [17.12834153477201]
スパースニューラルネットワークを用いた資源効率の高い新しい特徴選択法を提案する。
スクラッチからトレーニングされたスパースニューラルネットワークの入力層から、不定形的特徴を徐々に抜き取ることにより、NeuroFSは、機能の情報的サブセットを効率的に導き出す。
NeuroFSは、最先端の教師付き特徴選択モデルの中で最上位のスコアを達成している。
論文 参考訳(メタデータ) (2023-03-10T17:09:55Z) - Transfer Learning with Deep Tabular Models [66.67017691983182]
上流データにより、グラフニューラルネットワークはGBDTモデルよりも決定的な優位性を示す。
そこで本研究では,表在化学習のための現実的な診断ベンチマークを提案する。
上流と下流の特徴セットが異なる場合の擬似特徴法を提案する。
論文 参考訳(メタデータ) (2022-06-30T14:24:32Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Feature Selection Using Batch-Wise Attenuation and Feature Mask
Normalization [6.6357750579293935]
本稿では,新しいバッチ単位の減衰と特徴マスク正規化に基づく特徴選択のための特徴マスクモジュール(FM-モジュール)を提案する。
一般的な画像,テキスト,音声のデータセットを用いた実験により,我々のアプローチは使いやすく,最先端のディープラーニングに基づく特徴選択手法と比較して優れた性能を示した。
論文 参考訳(メタデータ) (2020-10-26T14:46:38Z) - On Feature Selection Using Anisotropic General Regression Neural Network [3.880707330499936]
入力データセットに無関係な特徴が存在することは、機械学習モデルの解釈可能性と予測品質を低下させる傾向がある。
本稿では, 一般回帰ニューラルネットワークと異方性ガウスカーネルを併用して特徴選択を行う方法を示す。
論文 参考訳(メタデータ) (2020-10-12T14:35:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。