論文の概要: FeatureCuts: Feature Selection for Large Data by Optimizing the Cutoff
- arxiv url: http://arxiv.org/abs/2508.00954v1
- Date: Fri, 01 Aug 2025 03:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.642835
- Title: FeatureCuts: Feature Selection for Large Data by Optimizing the Cutoff
- Title(参考訳): FeatureCuts: カットオフの最適化による大規模データの特徴選択
- Authors: Andy Hu, Devika Prasad, Luiz Pizzato, Nicholas Foord, Arman Abrahamyan, Anna Leontjeva, Cooper Doyle, Dan Jermyn,
- Abstract要約: FeatureCutsは、フィルタランキングを実行した後、最適なフィーチャーカットオフを適応的に選択する、新しい特徴選択アルゴリズムである。
性能は15パーセント向上し、モデル性能を維持しながら99.6%の時間を短縮できる。
FeatureCutsのオーバーヘッドは最小であり、エンタープライズアプリケーションで一般的に見られる大規模なデータセットにスケーラブルである。
- 参考スコア(独自算出の注目度): 0.301138495170623
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In machine learning, the process of feature selection involves finding a reduced subset of features that captures most of the information required to train an accurate and efficient model. This work presents FeatureCuts, a novel feature selection algorithm that adaptively selects the optimal feature cutoff after performing filter ranking. Evaluated on 14 publicly available datasets and one industry dataset, FeatureCuts achieved, on average, 15 percentage points more feature reduction and up to 99.6% less computation time while maintaining model performance, compared to existing state-of-the-art methods. When the selected features are used in a wrapper method such as Particle Swarm Optimization (PSO), it enables 25 percentage points more feature reduction, requires 66% less computation time, and maintains model performance when compared to PSO alone. The minimal overhead of FeatureCuts makes it scalable for large datasets typically seen in enterprise applications.
- Abstract(参考訳): 機械学習では、機能選択のプロセスは、正確で効率的なモデルを訓練するために必要な情報の大部分をキャプチャする機能のサブセットの削減を含む。
本研究は,フィルタランキングの実行後,最適な特徴カットオフを適応的に選択する特徴選択アルゴリズムであるFeatureCutsを提案する。
14の公開データセットと1つの業界データセットに基づいて評価されたFeatureCutsは、従来の最先端の手法と比較して、平均15パーセントの機能を削減し、計算時間を99.6%削減した。
パーティクルスワーム最適化(PSO)のようなラッパー手法で選択された特徴を利用する場合、25パーセント以上の機能削減が可能となり、66%の計算時間が必要となり、PSO単独と比較してモデル性能が維持される。
FeatureCutsのオーバーヘッドは最小であり、エンタープライズアプリケーションで一般的に見られる大規模なデータセットにスケーラブルである。
関連論文リスト
- Shap-Select: Lightweight Feature Selection Using SHAP Values and Regression [0.0]
本稿では,新しい特徴選択フレームワーク,shap-selectを提案する。
フレームワークは、特徴のShapley値、検証セットに基づいてターゲットの線形的あるいはロジスティックな回帰を行い、回帰係数の符号と重要度を用いて特徴選択の効率的な実装を行う。
筆者らは、Kaggleクレジットカード詐欺データセットのシェープ選択を評価し、確立された方法と比較して、その有効性を実証した。
論文 参考訳(メタデータ) (2024-10-09T12:14:06Z) - Data curation via joint example selection further accelerates multimodal learning [3.329535792151987]
サンプルを個別に選択するよりも,データのバッチを共同で選択することが学習に有効であることを示す。
このようなバッチを選択するための単純かつトラクタブルなアルゴリズムを導出し、個別に優先順位付けされたデータポイントを超えてトレーニングを著しく加速する。
論文 参考訳(メタデータ) (2024-06-25T16:52:37Z) - Refined Coreset Selection: Towards Minimal Coreset Size under Model
Performance Constraints [69.27190330994635]
コアセットの選択は、計算コストの削減とディープラーニングアルゴリズムのデータ処理の高速化に強力である。
本稿では,モデル性能とコアセットサイズに対する最適化優先順序を維持する革新的な手法を提案する。
実験的に、広範な実験によりその優位性が確認され、しばしばより小さなコアセットサイズでモデル性能が向上する。
論文 参考訳(メタデータ) (2023-11-15T03:43:04Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Data Selection for Language Models via Importance Resampling [90.9263039747723]
我々は、望まれるターゲット分布に合わせるために、大規模な未ラベルデータセットのサブセットを選択するという問題を形式化する。
我々は、LMデータ選択のために低次元で使用される古典的な重要度再サンプリング手法を拡張した。
DSIRフレームワークをhash n-gram機能でインスタンス化し、4.5時間で1億のドキュメントを選択できる。
論文 参考訳(メタデータ) (2023-02-06T23:57:56Z) - Integral Continual Learning Along the Tangent Vector Field of Tasks [112.02761912526734]
本稿では,特殊データセットからの情報を段階的に組み込んだ軽量連続学習手法を提案する。
ソースデータセットの0.4%まで小さく、小さな固定サイズのメモリバッファを保持しており、単純な再サンプリングによって更新される。
提案手法は,異なるデータセットに対して,様々なバッファサイズで高い性能を実現する。
論文 参考訳(メタデータ) (2022-11-23T16:49:26Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - A Feature Selection Method for Multi-Dimension Time-Series Data [2.055949720959582]
モーションキャプチャやアクティビティ認識などのアプリケーション領域の時系列データは、しばしば多次元である。
これらのデータストリームには多くの冗長性があり、優れた分類精度は少数の機能で達成できることが多い。
相互情報に基づく多次元時系列データにおける特徴部分選択法を提案する。
論文 参考訳(メタデータ) (2021-04-22T14:49:00Z) - Non-Parametric Adaptive Network Pruning [125.4414216272874]
アルゴリズム設計を簡略化するノンパラメトリックモデリングを導入。
顔認識コミュニティに触発されて,メッセージパッシングアルゴリズムを用いて,適応的な例示数を求める。
EPrunerは「重要」フィルタを決定する際にトレーニングデータへの依存を壊します。
論文 参考訳(メタデータ) (2021-01-20T06:18:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。