論文の概要: An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering
- arxiv url: http://arxiv.org/abs/2104.10819v1
- Date: Thu, 22 Apr 2021 01:34:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 23:03:06.318263
- Title: An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering
- Title(参考訳): 親友クラスタリングによる高精度かつ効率的な大規模回帰手法
- Authors: Kun Li, Liang Yuan, Yunquan Zhang, Gongwei Chen
- Abstract要約: データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
- 参考スコア(独自算出の注目度): 10.273838113763192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As the data size in Machine Learning fields grows exponentially, it is
inevitable to accelerate the computation by utilizing the ever-growing large
number of available cores provided by high-performance computing hardware.
However, existing parallel methods for clustering or regression often suffer
from problems of low accuracy, slow convergence, and complex
hyperparameter-tuning. Furthermore, the parallel efficiency is usually
difficult to improve while striking a balance between preserving model
properties and partitioning computing workloads on distributed systems. In this
paper, we propose a novel and simple data structure capturing the most
important information among data samples. It has several advantageous
properties supporting a hierarchical clustering strategy that is irrelevant to
the hardware parallelism, well-defined metrics for determining optimal
clustering, balanced partition for maintaining the compactness property, and
efficient parallelization for accelerating computation phases. Then we combine
the clustering with regression techniques as a parallel library and utilize a
hybrid structure of data and model parallelism to make predictions. Experiments
illustrate that our library obtains remarkable performance on convergence,
accuracy, and scalability.
- Abstract(参考訳): 機械学習分野のデータサイズが指数関数的に増加するにつれ、高性能コンピューティングハードウェアが提供する膨大なコアを利用することで、計算を加速することは避けられない。
しかし、クラスタリングや回帰のための既存の並列手法は、しばしば低い精度、遅い収束、複雑なハイパーパラメータチューニングといった問題に悩まされる。
さらに、並列効率は通常、モデルプロパティの保存と分散システム上のコンピューティングワークロードの分割のバランスを保ちながら、改善が難しい。
本稿では,データサンプルの中から最も重要な情報をキャプチャする,新しくシンプルなデータ構造を提案する。
ハードウェア並列性とは無関係な階層的クラスタリング戦略をサポートするいくつかの有利な特性、最適なクラスタリングを決定するための明確なメトリクス、コンパクト性を維持するためのバランスの取れたパーティション、計算フェーズを高速化するための効率的な並列化がある。
次に,クラスタリングと回帰手法を並列ライブラリとして組み合わせ,データのハイブリッド構造とモデル並列性を用いて予測を行う。
実験により,本ライブラリは収束性,正確性,拡張性において顕著な性能を得た。
関連論文リスト
- Sample-Efficient Clustering and Conquer Procedures for Parallel
Large-Scale Ranking and Selection [0.0]
並列コンピューティング環境では、相関ベースのクラスタリングは$mathcalO(p)$サンプル複雑性低減率を達成することができる。
ニューラルアーキテクチャ検索のような大規模AIアプリケーションでは、スクリーニングなしバージョンの手順が、サンプル効率の点で完全に順序づけられたベンチマークを驚くほど上回っている。
論文 参考訳(メタデータ) (2024-02-03T15:56:03Z) - Ravnest: Decentralized Asynchronous Training on Heterogeneous Devices [0.0]
Ravnestは、計算ノードをクラスタに効率的に整理することで、分散トレーニングを促進する。
遅延更新を伴うブロック構造最適化問題として,非同期SGD損失関数のフレーム化を行った。
論文 参考訳(メタデータ) (2024-01-03T13:07:07Z) - High-Performance Hybrid Algorithm for Minimum Sum-of-Squares Clustering of Infinitely Tall Data [0.3069335774032178]
本稿では,Infinitely Tall Data (MSSC-ITD) の最小二乗クラスタリングという,クラスタリング問題の新しい定式化を提案する。
現代の高性能コンピューティング技術を利用することで、HPClustは、有効性、計算効率、拡張性といった主要なクラスタリング指標を強化する。
論文 参考訳(メタデータ) (2023-11-08T08:02:52Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Does compressing activations help model parallel training? [64.59298055364336]
モデル並列性に対する圧縮法の有効性に関する実験的検討を行った。
圧縮アルゴリズムの3つの共通クラスを実装し,評価する。
我々は160以上の設定と8つの一般的なデータセットでこれらの手法を評価した。
論文 参考訳(メタデータ) (2023-01-06T18:58:09Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Data splitting improves statistical performance in overparametrized
regimes [0.0]
分散学習は、複数のコンピューティングデバイスを活用することで、全体的なトレーニング時間を短縮する一般的な戦略である。
この状態において、データの分割は正規化効果があり、統計性能と計算複雑性が向上することを示す。
論文 参考訳(メタデータ) (2021-10-21T08:10:56Z) - A New Parallel Adaptive Clustering and its Application to Streaming Data [0.0]
本稿では,適切な数のクラスを同時に選択しながら,自動的にデータを分類する並列適応クラスタリング(pac)アルゴリズムを提案する。
並列スレッドの結果を効率よくクラスタリングする正規化セット mik-means を開発した。
提案手法の性能を特徴付けるための理論的解析と数値実験を行う。
論文 参考訳(メタデータ) (2021-04-06T17:18:56Z) - Real-Time Regression with Dividing Local Gaussian Processes [62.01822866877782]
局所ガウス過程は、ガウス過程の回帰に基づく新しい、計算効率の良いモデリング手法である。
入力空間の反復的データ駆動分割により、実際にはトレーニングポイントの総数において、サブ線形計算複雑性が達成される。
実世界のデータセットに対する数値的な評価は、予測と更新の速度だけでなく、精度の点で他の最先端手法よりも有利であることを示している。
論文 参考訳(メタデータ) (2020-06-16T18:43:31Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z) - New advances in enumerative biclustering algorithms with online
partitioning [80.22629846165306]
さらに、数値データセットの列に定数値を持つ最大二クラスタの効率的で完全で正しい非冗長列挙を実現できる二クラスタリングアルゴリズムであるRIn-Close_CVCを拡張した。
改良されたアルゴリズムはRIn-Close_CVC3と呼ばれ、RIn-Close_CVCの魅力的な特性を保ちます。
論文 参考訳(メタデータ) (2020-03-07T14:54:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。