論文の概要: Data Classification With Multiprocessing
- arxiv url: http://arxiv.org/abs/2312.15152v1
- Date: Sat, 23 Dec 2023 03:42:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-27 19:39:46.712985
- Title: Data Classification With Multiprocessing
- Title(参考訳): マルチプロセッシングによるデータ分類
- Authors: Anuja Dixit, Shreya Byreddy, Guanqun Song, Ting Zhu
- Abstract要約: Pythonのマルチプロセッシングは、異なる分類アルゴリズムでこの仮説をテストするために使われる。
我々は、アンサンブルは精度を向上し、マルチプロセッシングは選択したアルゴリズムの実行時間を短縮する、と結論付けた。
- 参考スコア(独自算出の注目度): 6.513930657238705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Classification is one of the most important tasks in Machine Learning (ML)
and with recent advancements in artificial intelligence (AI) it is important to
find efficient ways to implement it. Generally, the choice of classification
algorithm depends on the data it is dealing with, and accuracy of the algorithm
depends on the hyperparameters it is tuned with. One way is to check the
accuracy of the algorithms by executing it with different hyperparameters
serially and then selecting the parameters that give the highest accuracy to
predict the final output. This paper proposes another way where the algorithm
is parallelly trained with different hyperparameters to reduce the execution
time. In the end, results from all the trained variations of the algorithms are
ensembled to exploit the parallelism and improve the accuracy of prediction.
Python multiprocessing is used to test this hypothesis with different
classification algorithms such as K-Nearest Neighbors (KNN), Support Vector
Machines (SVM), random forest and decision tree and reviews factors affecting
parallelism. Ensembled output considers the predictions from all processes and
final class is the one predicted by maximum number of processes. Doing this
increases the reliability of predictions. We conclude that ensembling improves
accuracy and multiprocessing reduces execution time for selected algorithms.
- Abstract(参考訳): 分類は機械学習(ML)において最も重要なタスクの1つであり、人工知能(AI)の最近の進歩により、効率的な実装方法を見つけることが重要である。
一般的に、分類アルゴリズムの選択は処理対象のデータに依存し、アルゴリズムの精度は調整対象のハイパーパラメータに依存する。
1つの方法は、異なるハイパーパラメータを連続的に実行してアルゴリズムの精度をチェックし、最終出力を予測するのに最も精度の高いパラメータを選択することである。
本稿では,アルゴリズムを異なるハイパーパラメータで並列に訓練し,実行時間を短縮する方法を提案する。
最終的に、アルゴリズムのすべての訓練されたバリエーションの結果は並列性を活用し、予測の精度を向上させるためにアサンブルされる。
pythonのマルチプロセッシングは、k-nearest neighbors (knn)、 support vector machines (svm)、random forest and decision treeなどの異なる分類アルゴリズムでこの仮説をテストするのに使われ、並列性に影響を与える要因をレビューする。
アンサンブルアウトプットはすべてのプロセスからの予測を考慮し、最終クラスは最大プロセス数で予測される。
これによって予測の信頼性が向上する。
その結果,マルチプロセッシングにより選択したアルゴリズムの実行時間を短縮できることがわかった。
関連論文リスト
- A Stable, Fast, and Fully Automatic Learning Algorithm for Predictive
Coding Networks [65.34977803841007]
予測符号化ネットワークは、ベイズ統計学と神経科学の両方にルーツを持つ神経科学にインスパイアされたモデルである。
シナプス重みに対する更新規則の時間的スケジュールを変更するだけで、元の規則よりもずっと効率的で安定したアルゴリズムが得られることを示す。
論文 参考訳(メタデータ) (2022-11-16T00:11:04Z) - Efficient Approximate Kernel Based Spike Sequence Classification [56.2938724367661]
SVMのような機械学習モデルは、シーケンスのペア間の距離/相似性の定義を必要とする。
厳密な手法により分類性能は向上するが、計算コストが高い。
本稿では,その予測性能を向上させるために,近似カーネルの性能を改善する一連の方法を提案する。
論文 参考訳(メタデータ) (2022-09-11T22:44:19Z) - Parallel Instance Filtering for Malware Detection [0.0]
この研究は、Parallel Instance Filtering (PIF)と呼ばれる新しい並列インスタンス選択アルゴリズムを提案する。
このアルゴリズムの主な考え方は、データセット全体をカバーしているインスタンスの重複しないサブセットにデータセットを分割し、各サブセットにフィルタリングプロセスを適用することである。
我々はPIFアルゴリズムと、50,000の悪意あるサンプルからなる大規模なデータセット上で、最先端のインスタンス選択アルゴリズムを比較した。
論文 参考訳(メタデータ) (2022-06-28T11:14:20Z) - Machine Learning for Online Algorithm Selection under Censored Feedback [71.6879432974126]
オンラインアルゴリズム選択(OAS)では、アルゴリズム問題クラスのインスタンスがエージェントに次々に提示され、エージェントは、固定された候補アルゴリズムセットから、おそらく最高のアルゴリズムを迅速に選択する必要がある。
SAT(Satisfiability)のような決定問題に対して、品質は一般的にアルゴリズムのランタイムを指す。
本研究では,OASのマルチアームバンディットアルゴリズムを再検討し,この問題に対処する能力について議論する。
ランタイム指向の損失に適応し、時間的地平線に依存しない空間的・時間的複雑さを維持しながら、部分的に検閲されたデータを可能にする。
論文 参考訳(メタデータ) (2021-09-13T18:10:52Z) - Benchmarking Processor Performance by Multi-Threaded Machine Learning
Algorithms [0.0]
本稿では,マルチスレッド機械学習クラスタリングアルゴリズムの性能比較を行う。
私は、アルゴリズムのパフォーマンス特性を決定するために、線形回帰、ランダムフォレスト、K-Nearest Neighborsに取り組んでいます。
論文 参考訳(メタデータ) (2021-09-11T13:26:58Z) - Double Coverage with Machine-Learned Advice [100.23487145400833]
オンラインの基本的な$k$-serverの問題を学習強化環境で研究する。
我々のアルゴリズムは任意の k に対してほぼ最適の一貫性-破壊性トレードオフを達成することを示す。
論文 参考訳(メタデータ) (2021-03-02T11:04:33Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Online Model Selection for Reinforcement Learning with Function
Approximation [50.008542459050155]
我々は、$tildeO(L5/6 T2/3)$ regretで最適な複雑性に適応するメタアルゴリズムを提案する。
また、メタアルゴリズムは、インスタンス依存の後悔境界を著しく改善することを示す。
論文 参考訳(メタデータ) (2020-11-19T10:00:54Z) - MementoML: Performance of selected machine learning algorithm
configurations on OpenML100 datasets [5.802346990263708]
本稿では,異なるMLアルゴリズムの性能を示すベンチマークデータを生成するプロトコルを提案する。
このように収集されたデータは、アルゴリズムのパフォーマンスに影響を与える要因を研究するために使用される。
論文 参考訳(メタデータ) (2020-08-30T13:13:52Z) - Weighted Random Search for CNN Hyperparameter Optimization [0.0]
本稿では、ランダム探索(RS)と確率的欲求を組み合わせた重み付きランダム探索(WRS)手法を提案する。
基準は、ハイパーパラメーター値の試験された組み合わせの同じ数内で達成される分類精度である。
我々の実験によると、WRSアルゴリズムは他の手法よりも優れています。
論文 参考訳(メタデータ) (2020-03-30T09:40:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。