論文の概要: Fast Parallel Bayesian Network Structure Learning
- arxiv url: http://arxiv.org/abs/2212.04259v1
- Date: Thu, 8 Dec 2022 13:17:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 15:06:16.809225
- Title: Fast Parallel Bayesian Network Structure Learning
- Title(参考訳): 高速並列ベイズネットワーク構造学習
- Authors: Jiantong Jiang, Zeyi Wen, Ajmal Mian
- Abstract要約: 我々は、BN構造学習の効率を高めるために、マルチコアCPU上でFast-BNSと呼ばれる高速解を提案する。
Fast-BNSは、不要なCIテストの数を減らすために、エッジのCIテストを同じエンドポイントでグループ化するなど、一連の効率最適化によって実現されている。
総合的な実験的研究により、Fast-BNSのシーケンシャルバージョンは、Fast-BNSの50倍高速であることが示されている。
- 参考スコア(独自算出の注目度): 37.46185698921754
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bayesian networks (BNs) are a widely used graphical model in machine learning
for representing knowledge with uncertainty. The mainstream BN structure
learning methods require performing a large number of conditional independence
(CI) tests. The learning process is very time-consuming, especially for
high-dimensional problems, which hinders the adoption of BNs to more
applications. Existing works attempt to accelerate the learning process with
parallelism, but face issues including load unbalancing, costly atomic
operations and dominant parallel overhead. In this paper, we propose a fast
solution named Fast-BNS on multi-core CPUs to enhance the efficiency of the BN
structure learning. Fast-BNS is powered by a series of efficiency optimizations
including (i) designing a dynamic work pool to monitor the processing of edges
and to better schedule the workloads among threads, (ii) grouping the CI tests
of the edges with the same endpoints to reduce the number of unnecessary CI
tests, (iii) using a cache-friendly data storage to improve the memory
efficiency, and (iv) generating the conditioning sets on-the-fly to avoid extra
memory consumption. A comprehensive experimental study shows that the
sequential version of Fast-BNS is up to 50 times faster than its counterpart,
and the parallel version of Fast-BNS achieves 4.8 to 24.5 times speedup over
the state-of-the-art multi-threaded solution. Moreover, Fast-BNS has a good
scalability to the network size as well as sample size. Fast-BNS source code is
freely available at https://github.com/jjiantong/FastBN.
- Abstract(参考訳): ベイジアンネットワーク(bns)は、不確実性を持つ知識を表現するために機械学習で広く使われているグラフィカルモデルである。
BN構造学習法は、多くの条件独立テスト(CI)を実行する必要がある。
学習プロセスは非常に時間がかかり、特に高次元問題ではBNがより多くのアプリケーションに採用されるのを妨げている。
既存の作業は並列処理による学習プロセスを加速しようとするが、負荷のばらつき、コストのかかる原子操作、支配的な並列オーバーヘッドといった問題に直面している。
本稿では、BN構造学習の効率を高めるために、マルチコアCPU上で高速BNSと呼ばれる高速解を提案する。
Fast-BNSは一連の効率最適化によって実現されている
i) エッジの処理を監視し、スレッド間のワークロードのスケジュールを改善するために、動的ワークプールを設計する。
(ii) 不要なCIテストの数を減らすために、エッジのCIテストを同じエンドポイントでグループ化する。
(iii)キャッシュフレンドリーなデータストレージを用いて、メモリ効率を向上させること。
(iv)余分なメモリ消費を避けるためにオンザフライでコンディショニングセットを生成すること。
総合的な実験的研究により、Fast-BNSのシーケンシャルバージョンはそれよりも最大50倍速く、Fast-BNSの並列バージョンは最先端のマルチスレッドソリューションよりも4.8倍から24.5倍のスピードアップを達成した。
さらに、Fast-BNSはネットワークサイズとサンプルサイズに優れたスケーラビリティを持つ。
Fast-BNSソースコードはhttps://github.com/jjiantong/FastBNで無料で入手できる。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - Tensor Slicing and Optimization for Multicore NPUs [2.670309629218727]
本稿では,Slicing Optimization (TSO) と呼ばれるマルチコアNPUに対するコンパイラ最適化パスを提案する。
TSOは、一連のCNNモデルの実行時間を最小化する最高のテンソルスライシングを特定する。
その結果、TSOは一連のCNNモデルの実行時間を最小化する最適なテンソルスライシングを識別できることがわかった。
論文 参考訳(メタデータ) (2023-04-06T12:03:03Z) - Compacting Binary Neural Networks by Sparse Kernel Selection [58.84313343190488]
本稿は,BNNにおけるバイナリカーネルの分散化がほぼ不可能であることを示すものである。
我々は、選択過程をエンドツーエンドに最適化するだけでなく、選択したコードワードの非反復的占有を維持できる置換ストレートスルー推定器(PSTE)を開発した。
実験により,提案手法はモデルサイズとビット幅の計算コストの両方を削減し,同等の予算下での最先端のBNNと比較して精度の向上を実現する。
論文 参考訳(メタデータ) (2023-03-25T13:53:02Z) - Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。
この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文 参考訳(メタデータ) (2022-12-29T15:10:59Z) - Accelerating Barnes-Hut t-SNE Algorithm by Efficient Parallelization on
Multi-Core CPUs [59.18990342943095]
t-SNEは高次元データを視覚化するための最も一般的な埋め込み技術の一つである。
BH t-SNEアルゴリズムは既存のCPU実装では非効率である。
Acc-t-SNEはScikit-learnよりも最大261倍、4倍高速で、daal4pyの最先端のBH t-SNE実装である。
論文 参考訳(メタデータ) (2022-12-22T06:38:40Z) - Fast Parallel Exact Inference on Bayesian Networks: Poster [33.63789467363392]
本稿では,マルチコアCPU上での高速BN精度推論手法であるFast-BNIを提案する。
Fast-BNIは、ハイブリッド並列性による正確な推論の効率を高める。
また、BN正確な推論のボトルネック操作をさらに単純化する手法を提案する。
論文 参考訳(メタデータ) (2022-12-08T12:50:02Z) - Intelligence Processing Units Accelerate Neuromorphic Learning [52.952192990802345]
スパイキングニューラルネットワーク(SNN)は、エネルギー消費と遅延の観点から、桁違いに改善されている。
我々は、カスタムSNN PythonパッケージsnnTorchのIPU最適化リリースを提示する。
論文 参考訳(メタデータ) (2022-11-19T15:44:08Z) - Towards Memory-Efficient Neural Networks via Multi-Level in situ
Generation [10.563649948220371]
ディープニューラルネットワーク(DNN)は、様々なタスクにおいて優れたパフォーマンスを示している。
それらが急速に進化するにつれて、そのエスカレーション計算とメモリ要求により、リソースに制約のあるエッジデバイスへのデプロイが困難になる。
超高速なオンチップ計算で高価なメモリトランザクションを交換するための汎用的で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-25T18:50:24Z) - HANT: Hardware-Aware Network Transformation [82.54824188745887]
ハードウェア・アウェア・ネットワーク・トランスフォーメーション(HANT)を提案する。
HANTは、ニューラルネットワーク検索のようなアプローチを使用して、非効率な操作をより効率的な代替手段に置き換える。
EfficientNetファミリの高速化に関する我々の結果は、ImageNetデータセットのトップ1の精度で最大3.6倍、0.4%の低下でHANTがそれらを加速できることを示している。
論文 参考訳(メタデータ) (2021-07-12T18:46:34Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。