論文の概要: Novel GPU Boruta algorithms for feature selection from high-dimensional data
- arxiv url: http://arxiv.org/abs/2605.09950v1
- Date: Mon, 11 May 2026 03:54:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.506246
- Title: Novel GPU Boruta algorithms for feature selection from high-dimensional data
- Title(参考訳): 高次元データからの特徴選択のための新しいGPUボルタアルゴリズム
- Authors: Xurui Li, Zhiguo Gan, Jiaming Zhang, Zheng Liu, Diannan Lu,
- Abstract要約: 本稿では,Boruta-Permutが置換に基づく特徴量の重要度に依存し,Boruta-TreeImpが不純物低減に基づく重要度を利用する,Boruta機能選択手順のGPUアクセラレーションバージョンを2つ提案する。
提案したGPU高速化アルゴリズムは,元のBorutaアルゴリズムに匹敵する特徴選択精度を保ちながら,計算効率を大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 10.039268514097465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most feature selection algorithms, especially wrapper methods, run inefficiently on CPU based platforms because of their high computational complexity. This inefficiency makes them unsuitable for processing large scale datasets. To address this challenge, the present study proposed two GPU accelerated versions of the Boruta feature selection procedure, in which Boruta-Permut relies on permutation based feature importance and Boruta-TreeImp employs importance based on impurity reduction. To evaluate these methods we conducted experiments on both a self constructed dataset and several publicly available datasets. The experimental results show that the proposed GPU accelerated algorithms greatly improve computational efficiency while preserving feature selection accuracy comparable to the original Boruta algorithm. In our analysis we also observe that the impurity reduction based version can overestimate the importance of some features. Overall these findings suggest that performing Boruta feature selection on GPUs offers an effective and cost efficient solution for large scale data analysis, which is a good deal.
- Abstract(参考訳): ほとんどの機能選択アルゴリズム、特にラッパーメソッドは、計算量が多いため、CPUベースのプラットフォームで非効率に実行される。
この非効率さは、大規模なデータセットを処理するのに適さない。
この課題に対処するため,本研究では,Boruta-Permutが置換に基づく特徴量の重要度に依存し,Boruta-TreeImpが不純物低減に基づく重要度を利用する2つのGPUアクセラレーション方式を提案する。
これらの手法を評価するために、自己構築されたデータセットと複数の公開データセットの両方について実験を行った。
実験結果から,提案したGPU高速化アルゴリズムは,元のBorutaアルゴリズムに匹敵する特徴選択精度を保ちながら,計算効率を大幅に向上することが示された。
分析では,不純物低減に基づくバージョンでは,いくつかの特徴の重要性が過大評価されていることも確認した。
これらの結果から,GPU上でのBoruta機能の選択は,大規模データ解析において効率的かつ費用対効果の高いソリューションである可能性が示唆された。
関連論文リスト
- GPU-Accelerated Algorithms for Graph Vector Search: Taxonomy, Empirical Study, and Research Directions [54.570944939061555]
本稿では,GPU加速グラフに基づくベクトル探索アルゴリズムについて包括的に研究する。
我々は、GPU最適化戦略の詳細な分類を確立し、アルゴリズムタスクとハードウェア実行ユニット間のマッピングを明確にする。
我々の発見は、スケーラブルで堅牢なGPUベースの近接検索システムを設計するための明確なガイドラインを提供する。
論文 参考訳(メタデータ) (2026-02-10T16:18:04Z) - Large-scale Multi-objective Feature Selection: A Multi-phase Search Space Shrinking Approach [0.27624021966289597]
特徴の選択は、特に高次元データセットにおいて、機械学習において重要なステップである。
本稿では,LMSSSと呼ばれる探索空間の縮小に基づく大規模多目的進化アルゴリズムを提案する。
提案アルゴリズムの有効性は、15の大規模データセットに対する包括的実験によって実証される。
論文 参考訳(メタデータ) (2024-10-13T23:06:10Z) - GPU Based Differential Evolution: New Insights and Comparative Study [7.5961910202572644]
この研究は、GPUベースの微分進化アルゴリズムの文献における主要なアーキテクチャ選択についてレビューする。
新しいGPUベースの数値最適化ベンチマークを導入し、GPUベースのDEMアルゴリズムを評価し比較する。
論文 参考訳(メタデータ) (2024-05-26T12:40:39Z) - Noise-Augmented Boruta: The Neural Network Perturbation Infusion with
Boruta Feature Selection [8.298740301623035]
本稿では,影変数に雑音を組み込むことにより,ボルタ特徴選択アルゴリズムに革新的なアプローチを提案する。
4つの公開ベンチマークデータセットの厳密なテストにより、提案手法が従来のボルタアルゴリズムより優れていることが明らかになった。
論文 参考訳(メタデータ) (2023-09-18T11:59:06Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。