論文の概要: FT K-Means: A High-Performance K-Means on GPU with Fault Tolerance
- arxiv url: http://arxiv.org/abs/2408.01391v1
- Date: Fri, 2 Aug 2024 17:01:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 12:38:30.000113
- Title: FT K-Means: A High-Performance K-Means on GPU with Fault Tolerance
- Title(参考訳): FT K-Means: フォールトトレランスを備えたGPU上の高性能K-Means
- Authors: Shixun Wu, Yitong Ding, Yujia Zhai, Jinyang Liu, Jiajun Huang, Zizhe Jian, Huangliang Dai, Sheng Di, Bryan M. Wong, Zizhong Chen, Franck Cappello,
- Abstract要約: FT K-Meansは,オンラインフォールトトレランスを備えたK-Meansの高性能実装である。
故障耐性のないFT K-MeansがcuMLのK-Means実装より優れていることを示す。
- 参考スコア(独自算出の注目度): 10.100958054600438
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: K-Means is a widely used algorithm in clustering, however, its efficiency is primarily constrained by the computational cost of distance computing. Existing implementations suffer from suboptimal utilization of computational units and lack resilience against soft errors. To address these challenges, we introduce FT K-Means, a high-performance GPU-accelerated implementation of K-Means with online fault tolerance. We first present a stepwise optimization strategy that achieves competitive performance compared to NVIDIA's cuML library. We further improve FT K-Means with a template-based code generation framework that supports different data types and adapts to different input shapes. A novel warp-level tensor-core error correction scheme is proposed to address the failure of existing fault tolerance methods due to memory asynchronization during copy operations. Our experimental evaluations on NVIDIA T4 GPU and A100 GPU demonstrate that FT K-Means without fault tolerance outperforms cuML's K-Means implementation, showing a performance increase of 10\%-300\% in scenarios involving irregular data shapes. Moreover, the fault tolerance feature of FT K-Means introduces only an overhead of 11\%, maintaining robust performance even with tens of errors injected per second.
- Abstract(参考訳): K-Meansはクラスタリングにおいて広く使われているアルゴリズムであるが、その効率は主に距離計算の計算コストに制約されている。
既存の実装は、計算単位の最適以下利用とソフトエラーに対するレジリエンスの欠如に悩まされている。
これらの課題に対処するため、FT K-Meansを導入し、K-Meansの高速GPU高速化とオンラインフォールトトレランスを実現する。
まず、NVIDIAのcuMLライブラリと比較して、競争性能を達成するためのステップワイズ最適化戦略を提案する。
我々は、異なるデータ型をサポートし、異なる入力形式に適応するテンプレートベースのコード生成フレームワークにより、FT K-Meansをさらに改善する。
コピー操作中のメモリ同期による既存のフォールトトレランス手法の故障に対処するために,ワープレベルのテンソルコア誤り訂正方式を提案する。
NVIDIA T4 GPU と A100 GPU の実験的評価により,障害耐性のない FT K-Means が cuML の K-Means 実装より優れており,不規則なデータ形状を含むシナリオでは 10\%-300\% の性能向上が示されている。
さらに、FT K-Meansのフォールトトレランス機能は、オーバーヘッドが111\%しか導入せず、毎秒数十エラーを注入しても堅牢な性能を維持している。
関連論文リスト
- Fast Data-independent KLT Approximations Based on Integer Functions [0.0]
Karhunen-Loeve変換(KLT)は確立された離散変換であり、データのデコリレーションと次元減少の最適特性を示す。
本稿では、様々なラウンドオフ関数を用いて、低複雑さでデータに依存しないKLT近似のカテゴリを紹介する。
提案した変換は,古典的性能尺度を考慮した正確なKLTおよび近似と比較すると良好に動作する。
論文 参考訳(メタデータ) (2024-10-11T20:05:05Z) - Accelerating Error Correction Code Transformers [56.75773430667148]
本稿では,トランスを用いたデコーダの高速化手法を提案する。
最新のハードウェアでは、90%の圧縮比を実現し、算術演算エネルギー消費を少なくとも224倍削減する。
論文 参考訳(メタデータ) (2024-10-08T11:07:55Z) - Adaptively Robust and Sparse K-means Clustering [5.535948428518607]
本稿では,標準的なK-meansアルゴリズムのこれらの実用的限界に対処するため,適応的に頑健でスパースなK-meansクラスタリング(ARSK)を提案する。
頑健性のために,各観測値に冗長な誤差成分を導入し,グループスパースペナルティを用いて追加パラメータをペナルティ化する。
高次元ノイズ変数の影響に対応するために、重みを取り入れ、重みベクトルの空間性を制御するペナルティを実装することにより、目的関数を変更する。
論文 参考訳(メタデータ) (2024-07-09T15:20:41Z) - LoCo: Low-Bit Communication Adaptor for Large-scale Model Training [63.040522637816906]
低ビット通信は、しばしば圧縮情報損失によってトレーニング品質が低下する。
本稿では,ローカルGPUノードを補償するLoCo(Lo-bit Communication Adaptor)を提案する。
実験結果から,Megatron-LMやPyTorchs FSDPといった大規模トレーニングモデルフレームワークの移動により,LoCoは圧縮通信効率を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-07-05T13:01:36Z) - Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming [25.210724274471914]
K$-meansクラスタリングは、大規模なデータセットのパターンを識別する機械学習手法として広く使用されている。
本稿では,非負の低ランクな$K$-means分解問題を解くNMFライクなアルゴリズムについて考察する。
提案アルゴリズムは,スケーラビリティを維持しつつ,既存の最先端技術と比較して,誤クラスタリングエラーを著しく小さくする。
論文 参考訳(メタデータ) (2023-05-29T00:39:55Z) - Adaptive Top-K in SGD for Communication-Efficient Distributed Learning [14.867068493072885]
本稿では,SGDフレームワークにおける新しい適応Top-Kを提案する。
MNIST と CIFAR-10 データセットの数値結果から,SGD における適応型 Top-K アルゴリズムは,最先端の手法に比べてはるかに優れた収束率が得られることが示された。
論文 参考訳(メタデータ) (2022-10-24T18:33:35Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Semantic Perturbations with Normalizing Flows for Improved
Generalization [62.998818375912506]
我々は、非教師付きデータ拡張を定義するために、潜在空間における摂動が利用できることを示す。
トレーニングを通して分類器に適応する潜伏性対向性摂動が最も効果的であることが判明した。
論文 参考訳(メタデータ) (2021-08-18T03:20:00Z) - AQD: Towards Accurate Fully-Quantized Object Detection [94.06347866374927]
本稿では,浮動小数点演算を除去するために,AQDと呼ばれる高精度な量子化オブジェクト検出ソリューションを提案する。
我々のAQDは、非常に低ビットのスキームの下での完全精度と比較して、同等またはそれ以上の性能を実現しています。
論文 参考訳(メタデータ) (2020-07-14T09:07:29Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - Probabilistic K-means Clustering via Nonlinear Programming [13.026121785720395]
確率的K平均 (probabilistic K-Means, PKM) は線形等式と線形不等式に制約された非線形プログラミングモデルである。
理論上は、能動的勾配射影により非効率にモデルを解くことができる。
実験により,PKMの性能と提案手法の解法を5つの側面で検討した。
論文 参考訳(メタデータ) (2020-01-10T02:40:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。