論文の概要: Feature Selection for Huge Data via Minipatch Learning
- arxiv url: http://arxiv.org/abs/2010.08529v2
- Date: Wed, 10 Feb 2021 23:40:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-06 20:31:32.800523
- Title: Feature Selection for Huge Data via Minipatch Learning
- Title(参考訳): ミニパッチ学習による大規模データの特徴選択
- Authors: Tianyi Yao and Genevera I. Allen
- Abstract要約: 安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。
STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。
われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Feature selection often leads to increased model interpretability, faster
computation, and improved model performance by discarding irrelevant or
redundant features. While feature selection is a well-studied problem with many
widely-used techniques, there are typically two key challenges: i) many
existing approaches become computationally intractable in huge-data settings
with millions of observations and features; and ii) the statistical accuracy of
selected features degrades in high-noise, high-correlation settings, thus
hindering reliable model interpretation. We tackle these problems by proposing
Stable Minipatch Selection (STAMPS) and Adaptive STAMPS (AdaSTAMPS). These are
meta-algorithms that build ensembles of selection events of base feature
selectors trained on many tiny, (adaptively-chosen) random subsets of both the
observations and features of the data, which we call minipatches. Our
approaches are general and can be employed with a variety of existing feature
selection strategies and machine learning techniques. In addition, we provide
theoretical insights on STAMPS and empirically demonstrate that our approaches,
especially AdaSTAMPS, dominate competing methods in terms of feature selection
accuracy and computational time.
- Abstract(参考訳): 機能の選択は多くの場合、モデル解釈性の向上、高速な計算、無関係あるいは冗長な機能を捨てることによるモデルパフォーマンスの向上につながる。
機能選択は多くの広く使われているテクニックでよく研究されている問題ですが、一般的に2つの重要な課題があります。
一 既存の多くのアプローチが、数百万の観測及び特徴を有する巨大なデータ設定において計算的に難解となること。
二 選択された特徴の統計的精度は、高雑音、高相関設定において劣化し、信頼性のあるモデル解釈を妨げる。
本稿では,STAMPS (Stable Minipatch Selection) とAdaptive STAMPS (AdaSTAMPS) を提案する。
これらのメタアルゴリズムは、データの観察と特徴の両方の小さな(適応的に)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築する。
私たちのアプローチは一般的であり、既存のさまざまな機能選択戦略や機械学習技術で活用できます。
さらに,切手に関する理論的洞察を提供し,我々のアプローチ,特にアダストサンプが,特徴選択精度と計算時間の観点から競合する手法を支配できることを実証的に示す。
関連論文リスト
- LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - A Contrast Based Feature Selection Algorithm for High-dimensional Data
set in Machine Learning [9.596923373834093]
本稿では,異なるクラス間で示される相違点に基づいて識別的特徴を抽出する新しいフィルタ特徴選択手法であるContrastFSを提案する。
提案手法の有効性と有効性について検証し,提案手法が無視可能な計算で良好に動作することを示す。
論文 参考訳(メタデータ) (2024-01-15T05:32:35Z) - Embedded feature selection in LSTM networks with multi-objective
evolutionary ensemble learning for time series forecasting [49.1574468325115]
本稿では,Long Short-Term Memory Networkに埋め込まれた特徴選択手法を提案する。
本手法はLSTMの重みと偏りを分割的に最適化する。
イタリアとスペイン南東部の大気質時系列データの実験的評価により,従来のLSTMの能力一般化が著しく向上することが確認された。
論文 参考訳(メタデータ) (2023-12-29T08:42:10Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Causal Feature Selection via Transfer Entropy [59.999594949050596]
因果発見は、観察データによる特徴間の因果関係を特定することを目的としている。
本稿では,前向きと後向きの機能選択に依存する新たな因果的特徴選択手法を提案する。
精度および有限サンプルの場合の回帰誤差と分類誤差について理論的に保証する。
論文 参考訳(メタデータ) (2023-10-17T08:04:45Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Towards Explainable Exploratory Landscape Analysis: Extreme Feature
Selection for Classifying BBOB Functions [4.932130498861987]
驚くほど少数の機能(多くの場合4つ未満)が、98%の精度を達成するのに十分であることを示している。
分類精度は、いくつかのインスタンスがトレーニングやテストに関わっている設定に変換されることを示す。
論文 参考訳(メタデータ) (2021-02-01T10:04:28Z) - Feature Selection Using Reinforcement Learning [0.0]
特定の関心の予測因子を特徴付けるために使用できる変数や特徴の空間は指数関数的に増大し続けている。
モデルのバイアスを損なうことなく分散を最小化する最も特徴的な特徴を特定することは、マシンラーニングモデルのトレーニングを成功させる上で非常に重要です。
論文 参考訳(メタデータ) (2021-01-23T09:24:37Z) - Robust Multi-class Feature Selection via $l_{2,0}$-Norm Regularization
Minimization [6.41804410246642]
特徴選択は、データマイニングと機械学習において重要な計算処理である。
本稿では,複数クラスの特徴選択における最小二乗問題の解法として,ホモシーハードしきい値(HIHT)に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-08T02:06:06Z) - A novel embedded min-max approach for feature selection in nonlinear
support vector machine classification [0.0]
min-max最適化問題に基づく組込み特徴選択法を提案する。
双対性理論を活用することにより、min-max問題を等価に修正し、それ以上のアドを伴わずに解決する。
提案手法の効率性と有用性は,いくつかのベンチマークデータセットで検証される。
論文 参考訳(メタデータ) (2020-04-21T09:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。