論文の概要: Scalable Feature Subset Selection for Big Data using Parallel Hybrid
Evolutionary Algorithm based Wrapper in Apache Spark
- arxiv url: http://arxiv.org/abs/2106.14007v3
- Date: Tue, 25 Jan 2022 05:35:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-25 11:47:36.309996
- Title: Scalable Feature Subset Selection for Big Data using Parallel Hybrid
Evolutionary Algorithm based Wrapper in Apache Spark
- Title(参考訳): apache sparkの並列ハイブリッド進化アルゴリズムに基づくラッパーを用いたビッグデータのためのスケーラブルな機能サブセット選択
- Authors: Yelleti Vivek, Vadlamani Ravi and Pisipati Radhakrishna
- Abstract要約: 本稿では,Apache Spark環境下での並列および分散ハイブリッド進化アルゴリズム(EA)に基づく機能サブセット選択(FSS)ラッパーを提案する。
提案アルゴリズムの有効性は,サイバーセキュリティと生物学領域から得られた,様々な特徴空間次元の5つの大きなデータセットに対して検証される。
- 参考スコア(独自算出の注目度): 4.241208172557663
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Owing to the emergence of large datasets, applying current sequential
wrapper-based feature subset selection (FSS) algorithms increases the
complexity. This limitation motivated us to propose a wrapper for feature
subset selection (FSS) based on parallel and distributed hybrid evolutionary
algorithms (EAs) under the Apache Spark environment. The hybrid EAs are based
on the BDE and Binary Threshold Accepting (BTA), a point-based EA, which is
invoked to enhance the search capability and avoid premature convergence of the
PB-DE. Thus, we designed the hybrid variants (i) parallel binary differential
evolution and threshold accepting (PB-DETA), where DE and TA work in tandem in
every iteration, and (ii) parallel binary threshold accepting and differential
evolution (PB-TADE), where TA and DE work in tandem in every iteration under
the Apache Spark environment. Both PB-DETA and PB-TADE are compared with the
baseline, viz., the parallel version of the binary differential evolution
(PB-DE). All three proposed approaches use logistic regression (LR) to compute
the fitness function, namely, the area under ROC curve (AUC). The effectiveness
of the proposed algorithms is tested over the five large datasets of varying
feature space dimension, taken from cyber security and biology domains. It is
noteworthy that the PB-TADE turned out to be statistically significant compared
to PB-DE and PB-DETA. We reported the speedup analysis, average AUC obtained by
the most repeated feature subset, feature subset with high AUC and least
cardinality.
- Abstract(参考訳): 大規模なデータセットの出現に伴い、現在のシーケンシャルラッパーベースの機能サブセット選択(FSS)アルゴリズムを適用すると、複雑さが増大する。
この制限により、Apache Spark環境下での並列および分散ハイブリッド進化アルゴリズム(EA)に基づいた、機能サブセット選択(FSS)のラッパーを提案しました。
ハイブリッドeasはbdeとbta(bta)に基づいており、探索能力を高めpb-deの早期収束を回避するために呼び出されるポイントベースのeaである。
そこで我々はハイブリッドをデザインしました
(i)並列二元微分進化・しきい値受容(pb-deta)、そこでは、deとtaはイテレーション毎にタンデムで動作し、
(ii)並列バイナリしきい値レセプションと差分進化(pb-tade)では、taとdeはapache spark環境下の各イテレーションでタンデムで動作する。
PB-DETA と PB-TADE はどちらも二分微分進化(PB-DE)の平行バージョンであるベースラインである viz と比較される。
提案した3つのアプローチは全て、ロジスティック回帰(LR)を用いてフィットネス関数、すなわちROC曲線(AUC)の領域を計算する。
提案アルゴリズムの有効性は,サイバーセキュリティと生物学領域から得られた,様々な特徴空間次元の5つの大きなデータセットに対して検証される。
PB-TADEはPB-DEおよびPB-DETAと比較して統計的に有意であった。
以上の結果より,最も頻度の高い機能サブセット,高AUC,最小濃度の機能サブセットで得られた平均AUCのスピードアップ分析を報告する。
関連論文リスト
- Adaptive Knowledge-based Multi-Objective Evolutionary Algorithm for Hybrid Flow Shop Scheduling Problems with Multiple Parallel Batch Processing Stages [5.851739146497829]
本研究では,ユーザが任意の段階を並列バッチ処理段階として任意に設定できる問題モデルを一般化する。
Adaptive Knowledge-based Multi-Objective Evolutionary Algorithm (AMOEA/D) は、makepanとTotal Energy Consumptionの両方を同時に最適化するように設計されている。
実験の結果, AMOEA/D は PBHFSP の解法において比較アルゴリズムよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-09-27T08:05:56Z) - Evolving a Multi-Population Evolutionary-QAOA on Distributed QPUs [0.0]
我々は,進化的QAOA(E-QAOA)ペアリングがCOBYLAベースのQAOAよりも同等以上の性能を示すことを示した。
また,2つのQPU上に分布する多集団EAを提案する。
論文 参考訳(メタデータ) (2024-09-16T21:16:51Z) - Poisson Process for Bayesian Optimization [126.51200593377739]
本稿では、Poissonプロセスに基づくランキングベースの代理モデルを提案し、Poisson Process Bayesian Optimization(PoPBO)と呼ばれる効率的なBOフレームワークを提案する。
従来のGP-BO法と比較すると,PoPBOはコストが低く,騒音に対する堅牢性も良好であり,十分な実験により検証できる。
論文 参考訳(メタデータ) (2024-02-05T02:54:50Z) - An Efficient High-Dimensional Gene Selection Approach based on Binary
Horse Herd Optimization Algorithm for Biological Data Classification [1.1510009152620668]
Horse Herd Optimization Algorithm (HOA)は、異なる年齢の馬の行動に基づく新しいメタヒューリスティックアルゴリズムである。
本稿では、離散的な問題を解くためにHOAのバイナリバージョンを提案し、特徴部分集合を選択する。
提案手法 (MRMR-BHOA) は, 精度, 最小選択特性において優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-18T19:40:59Z) - Massively Parallel Genetic Optimization through Asynchronous Propagation
of Populations [50.591267188664666]
Propulateは、グローバル最適化のための進化的最適化アルゴリズムとソフトウェアパッケージである。
提案アルゴリズムは, 選択, 突然変異, 交叉, 移動の変種を特徴とする。
Propulateは解の精度を犠牲にすることなく、最大で3桁高速であることがわかった。
論文 参考訳(メタデータ) (2023-01-20T18:17:34Z) - Sparse high-dimensional linear regression with a partitioned empirical
Bayes ECM algorithm [62.997667081978825]
疎高次元線形回帰に対する計算効率が高く強力なベイズ的手法を提案する。
パラメータに関する最小の事前仮定は、プラグイン経験的ベイズ推定(英語版)を用いて用いられる。
提案手法はRパッケージプローブに実装されている。
論文 参考訳(メタデータ) (2022-09-16T19:15:50Z) - Feature subset selection for Big Data via Chaotic Binary Differential
Evolution under Apache Spark [4.241208172557663]
本稿では,基数とAUCを含む新しい乗法的単一目的関数を提案する。
二項微分進化(BDE)にロジスティックおよびテントカオス写像を組み込み、それをカオス二項微分進化(CBDE)と命名した。
その結果,P-CBDE-iS(Chaotic Binary Differential Evolution)とP-CBDE-iS(Chaotic Binary Differential Evolution)により,より高品質な特徴部分集合が得られた。
論文 参考訳(メタデータ) (2022-02-08T11:39:40Z) - ES-Based Jacobian Enables Faster Bilevel Optimization [53.675623215542515]
バイレベル最適化(BO)は多くの現代の機械学習問題を解決する強力なツールとして生まれてきた。
既存の勾配法では、ヤコビアンあるいはヘッセンベクトル計算による二階微分近似が必要となる。
本稿では,進化戦略(ES)に基づく新しいBOアルゴリズムを提案し,BOの過勾配における応答ヤコビ行列を近似する。
論文 参考訳(メタデータ) (2021-10-13T19:36:50Z) - Momentum Accelerates the Convergence of Stochastic AUPRC Maximization [80.8226518642952]
高精度リコール曲線(AUPRC)に基づく領域の最適化について検討し,不均衡なタスクに広く利用されている。
我々は、$O (1/epsilon4)$のより優れた反復による、$epsilon$定常解を見つけるための新しい運動量法を開発する。
また,O(1/epsilon4)$と同じ複雑さを持つ適応手法の新たなファミリを設計し,実際により高速な収束を享受する。
論文 参考訳(メタデータ) (2021-07-02T16:21:52Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。