Fugu-MT 論文翻訳(概要): aweSOM: a CPU/GPU-accelerated Self-organizing Map and Statistically Combined Ensemble Framework for Machine-learning Clustering Analysis

論文の概要: aweSOM: a CPU/GPU-accelerated Self-organizing Map and Statistically Combined Ensemble Framework for Machine-learning Clustering Analysis

arxiv url: http://arxiv.org/abs/2504.09449v1
Date: Sun, 13 Apr 2025 06:17:35 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-23 07:15:51.273259
Title: aweSOM: a CPU/GPU-accelerated Self-organizing Map and Statistically Combined Ensemble Framework for Machine-learning Clustering Analysis
Title（参考訳）: aweSOM: 機械学習クラスタリング分析のためのCPU/GPU加速自己組織化マップと統計的に組み合わせたアンサンブルフレームワーク
Authors: Trung Ha, Joonas Nättilä, Jordy Davelaar,
Abstract要約: 機械学習(ML)クラスタリングと分類のためのオープンソースのPythonパッケージであるaweSOMを紹介する。自己組織化マップ(SOM)アルゴリズムを用いて、大規模な(N > 106$, where $N$ is the number of data points)、多次元データセットに対応する。 10-100倍のスピードアップとメモリ効率の大幅な向上は、いくつかの最適化が組み込まれているためである。
参考スコア（独自算出の注目度）: 0.9831489366502302
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce aweSOM, an open-source Python package for machine learning (ML) clustering and classification, using a Self-organizing Maps (SOM) algorithm that incorporates CPU/GPU acceleration to accommodate large ($N > 10^6$, where $N$ is the number of data points), multidimensional datasets. aweSOM consists of two main modules, one that handles the initialization and training of the SOM, and another that stacks the results of multiple SOM realizations to obtain more statistically robust clusters. Existing Python-based SOM implementations (e.g., POPSOM, Yuan (2018); MiniSom, Vettigli (2018); sklearn-som) primarily serve as proof-of-concept demonstrations, optimized for smaller datasets, but lacking scalability for large, multidimensional data. aweSOM provides a solution for this gap in capability, with good performance scaling up to $\sim 10^8$ individual points, and capable of utilizing multiple features per point. We compare the code performance against the legacy implementations it is based on, and find a 10-100x speed up, as well as significantly improved memory efficiency, due to several built-in optimizations.
Abstract（参考訳）: 我々は、機械学習(ML)クラスタリングと分類のためのオープンソースのPythonパッケージであるaweSOMを紹介し、CPU/GPUアクセラレーションを組み込んだ自己組織化マップ(SOM)アルゴリズムを用いて、大規模な(N > 10^6$, where $N$ is the number of data points)、多次元データセットを提供する。 aweSOMは2つの主要なモジュールから構成されており、1つはSOMの初期化と訓練を処理し、もう1つはより統計的に堅牢なクラスタを得るために複数のSOM実現の結果を積み重ねている。既存のPythonベースのSOM実装(例えば、POPSOM、Yuan (2018)、MiniSom、Vettigli (2018)、sklearn-som)は、主に概念実証として機能し、より小さなデータセットに最適化されるが、大規模な多次元データに対するスケーラビリティに欠ける。 aweSOMは、この能力のギャップに対するソリューションを提供し、優れたパフォーマンスのスケーリングを$\sim 10^8$の個別ポイントまで提供し、ポイント毎に複数の機能を利用することができます。コードパフォーマンスをベースとしたレガシ実装と比較し,10～100倍のスピードアップ,メモリ効率の大幅な向上など,いくつかの最適化が組み込まれています。

関連論文リスト

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training [63.07024608399447]
本稿では,事前学習環境でデータ混合物を発見し,評価し,精製する自動フレームワークを提案する。 ClimbLabは、20のクラスタを研究用グラウンドとして、フィルタされた1.2トリリオントーケンコーパスであり、ClimbMixはコンパクトだが強力な400ビリオントーケンデータセットである。
論文参考訳（メタデータ） (2025-04-17T17:58:13Z)
Minimally Supervised Learning using Topological Projections in Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文参考訳（メタデータ） (2024-01-12T22:51:48Z)
Partitioning Distributed Compute Jobs with Reinforcement Learning and Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文参考訳（メタデータ） (2023-01-31T17:41:07Z)
NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。 LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文参考訳（メタデータ） (2022-06-28T20:13:40Z)
Walle: An End-to-End, General-Purpose, and Large-Scale Production System for Device-Cloud Collaborative Machine Learning [40.09527159285327]
We build the first end-to-end and general-purpose system, called Walle, for device-cloud collaborative machine learning (ML) Walleはデプロイメントプラットフォームで構成され、MLタスクを10億規模のデバイスに分散する。データパイプラインはタスク入力を効率的に準備し、計算コンテナはクロスプラットフォームで高性能な実行環境を提供する。我々はWalleを実践的なeコマースアプリケーションシナリオで評価し、その有効性、効率、スケーラビリティを実証する。
論文参考訳（メタデータ） (2022-05-30T03:43:35Z)
CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures for Large-scale Analysis [11.071895608242675]
Dirichlet Process Mixture Model (DPMM) は、モデルの複雑さをデータに適用するための原則的なアプローチである。その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。そこで我々は,スケーラブルなDPMMM推論のための,新しい,使いやすい統計ソフトウェアパッケージを提案する。
論文参考訳（メタデータ） (2022-04-19T16:35:44Z)
Memory-Based Optimization Methods for Model-Agnostic Meta-Learning and Personalized Federated Learning [56.17603785248675]
モデルに依存しないメタラーニング (MAML) が人気のある研究分野となっている。既存のMAMLアルゴリズムは、イテレーション毎にメタモデルを更新するためにいくつかのタスクとデータポイントをサンプリングすることで、エピソードのアイデアに依存している。本稿では,MAMLのメモリベースアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-06-09T08:47:58Z)
Solving Mixed Integer Programs Using Neural Networks [57.683491412480635]
本稿では,mipソルバの2つのキーサブタスクに学習を適用し,高品質なジョイント変数割当を生成し,その割当と最適課題との客観的値の差を限定する。提案手法は,ニューラルネットワークに基づく2つのコンポーネントであるニューラルダイバーディングとニューラルブランチを構築し,SCIPなどのベースMIPソルバで使用する。 2つのGoogle生産データセットとMIPLIBを含む6つの現実世界データセットに対するアプローチを評価し、それぞれに別々のニューラルネットワークをトレーニングする。
論文参考訳（メタデータ） (2020-12-23T09:33:11Z)
Coded Stochastic ADMM for Decentralized Consensus Optimization with Edge Computing [113.52575069030192]
セキュリティ要件の高いアプリケーションを含むビッグデータは、モバイルデバイスやドローン、車両など、複数の異種デバイスに収集され、格納されることが多い。通信コストとセキュリティ要件の制限のため、核融合センターにデータを集約するのではなく、分散的に情報を抽出することが最重要となる。分散エッジノードを介してデータを局所的に処理するマルチエージェントシステムにおいて,モデルパラメータを学習する問題を考える。分散学習モデルを開発するために,乗算器アルゴリズムの最小バッチ交互方向法(ADMM)のクラスについて検討した。
論文参考訳（メタデータ） (2020-10-02T10:41:59Z)
BanditPAM: Almost Linear Time $k$-Medoids Clustering via Multi-Armed Bandits [16.1767275655842]
現在の$k$-medoidsクラスタリングアルゴリズム、例えば、PAM(Partitioning Around Medoids)は反復的であり、各イテレーションで$n$のデータセットサイズであり、大規模なデータセットでは極めて高価である。マルチアームバンディットの技法にインスパイアされたランダム化アルゴリズムであるBanditPAMを提案する。これは、PAMの繰り返しの複雑さを$O(n2)$から$O(n log n)$に減らし、実際に保持されるデータに対する仮定の下で、高い確率で同じ結果を返す。我々は、コーディングを含むいくつかの大規模な実世界のデータセットで実験的に結果を検証する。
論文参考訳（メタデータ） (2020-06-11T22:17:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。