Fugu-MT 論文翻訳(概要): Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs

論文の概要: Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs

arxiv url: http://arxiv.org/abs/2212.11506v1
Date: Thu, 22 Dec 2022 06:38:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-23 14:07:40.135963
Title: Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on Multi-Core CPUs
Title（参考訳）: マルチコアCPU上での効率的な並列化によるBarnes-Hut t-SNEアルゴリズムの高速化
Authors: Narendra Chaudhary, Alexander Pivovar, Pavel Yakovlev, Andrey Gorshkov, Sanchit Misra
Abstract要約: t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。 BH t-SNEアルゴリズムは既存のCPU実装では非効率である。 Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
参考スコア（独自算出の注目度）: 59.18990342943095
License: http://creativecommons.org/licenses/by/4.0/
Abstract: t-SNE remains one of the most popular embedding techniques for visualizing high-dimensional data. Most standard packages of t-SNE, such as scikit-learn, use the Barnes-Hut t-SNE (BH t-SNE) algorithm for large datasets. However, existing CPU implementations of this algorithm are inefficient. In this work, we accelerate the BH t-SNE on CPUs via cache optimizations, SIMD, parallelizing sequential steps, and improving parallelization of multithreaded steps. Our implementation (Acc-t-SNE) is up to 261x and 4x faster than scikit-learn and the state-of-the-art BH t-SNE implementation from daal4py, respectively, on a 32-core Intel(R) Icelake cloud instance.
Abstract（参考訳）: t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。 Scikit-learnのようなt-SNEの標準パッケージのほとんどは、大規模なデータセットにBarnes-Hut t-SNE (BH t-SNE)アルゴリズムを使用している。しかし、このアルゴリズムの既存のCPU実装は非効率である。本研究では,キャッシュ最適化,SIMD,シーケンシャルステップの並列化,マルチスレッドステップの並列化などにより,CPU上のBH t-SNEを高速化する。我々の実装(Acc-t-SNE)は、32コアのIntel(R) Icelakeクラウドインスタンス上のdaal4pyから、Scikit-learnよりも最大261倍、4倍高速である。

関連論文リスト

Fast, Scalable, Warm-Start Semidefinite Programming with Spectral Bundling and Sketching [53.91395791840179]
我々は、大規模なSDPを解くための、証明可能な正確で高速でスケーラブルなアルゴリズムであるUnified Spectral Bundling with Sketching (USBS)を提案する。 USBSは、20億以上の決定変数を持つインスタンス上で、最先端のスケーラブルなSDP解決器よりも500倍のスピードアップを提供する。
論文参考訳（メタデータ） (2023-12-19T02:27:22Z)
PECANN: Parallel Efficient Clustering with Graph-Based Approximate Nearest Neighbor Search [8.15681999722805]
本稿では, 点集合の密度に基づくクラスタリングについて検討する。密度ピークの異なる変種を単一のフレームワークPECANNに統合する。 PECANNを用いて5つのクラスタリングアルゴリズムを実装し,最大128万点,最大1024次元の合成および実世界のデータセットを双方向ハイパースレッディングを備えた30コアマシン上で評価する。
論文参考訳（メタデータ） (2023-12-06T22:43:50Z)
A Computationally Efficient Sparsified Online Newton Method [48.78646010774149]
Sparsified Online Newton (SONew) はメモリ効率の良い2次アルゴリズムである。最大で30%の高速化,3.4%の妥当性向上,80%のトレーニング損失の相対的改善を実現しています。
論文参考訳（メタデータ） (2023-11-16T18:44:22Z)
Massively Parallel Continuous Local Search for Hybrid SAT Solving on GPUs [5.245714076090567]
我々は、勾配駆動連続局所探索に基づく高並列ハイブリッドSATソルバであるFastFourierSATを提案する。以上の結果から,FastFourierSATはCPU上で実装された以前のプロトタイプの100倍以上の速度で勾配を計算することがわかった。 FastFourierSATは、ほとんどのインスタンスを解決し、より大きなインスタンスで有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2023-08-29T04:50:07Z)
INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。 InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。 1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文参考訳（メタデータ） (2023-08-11T04:24:39Z)
Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。 TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文参考訳（メタデータ） (2023-04-06T12:03:03Z)
Fast Parallel Bayesian Network Structure Learning [37.46185698921754]
我々は、BN構造学習の効率を高めるために、マルチコアCPU上でFast-BNSと呼ばれる高速解を提案する。 Fast-BNSは、不要なCIテストの数を減らすために、エッジのCIテストを同じエンドポイントでグループ化するなど、一連の効率最適化によって実現されている。総合的な実験的研究により、Fast-BNSのシーケンシャルバージョンは、Fast-BNSの50倍高速であることが示されている。
論文参考訳（メタデータ） (2022-12-08T13:17:02Z)
Asymmetric Scalable Cross-modal Hashing [51.309905690367835]
クロスモーダルハッシュは、大規模なマルチメディア検索問題を解決する方法として成功している。これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。我々のASCMHは、最先端のクロスモーダルハッシュ法よりも精度と効率の点で優れています。
論文参考訳（メタデータ） (2022-07-26T04:38:47Z)
Distributed Out-of-Memory NMF on CPU/GPU Architectures [1.0051474951635875]
本稿では,HPCシステムに対する非負行列分解(NMF)アルゴリズムのメモリ外実装を提案する。ベンチマークの結果、CPUベースのNMFkよりもGPUを使用した新しい実装により、32Xから76倍のスピードアップが大幅に改善された。
論文参考訳（メタデータ） (2022-02-19T03:49:21Z)
Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文参考訳（メタデータ） (2020-06-18T08:16:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。