論文の概要: Block size estimation for data partitioning in HPC applications using
machine learning techniques
- arxiv url: http://arxiv.org/abs/2211.10819v2
- Date: Wed, 31 Jan 2024 22:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-02 20:16:41.129766
- Title: Block size estimation for data partitioning in HPC applications using
machine learning techniques
- Title(参考訳): 機械学習を用いたHPCアプリケーションにおけるデータ分割のためのブロックサイズ推定
- Authors: Riccardo Cantini, Fabrizio Marozzo, Alessio Orsino, Domenico Talia,
Paolo Trunfio, Rosa M. Badia, Jorge Ejarque, Fernando Vazquez
- Abstract要約: 本稿では,ブロックサイズ推定のためのBLEST-ML(BLock size ESTimation through Machine Learning)手法について述べる。
提案手法は分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。
その結果、BLEST-MLが与えられたデータセットを分割する適切な方法を効率的に決定できることを示した。
- 参考スコア(独自算出の注目度): 38.063905789566746
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The extensive use of HPC infrastructures and frameworks for running
dataintensive applications has led to a growing interest in data partitioning
techniques and strategies. In fact, application performance can be heavily
affected by how data are partitioned, which in turn depends on the selected
size for data blocks, i.e. the block size. Therefore, finding an effective
partitioning, i.e. a suitable block size, is a key strategy to speed-up
parallel data-intensive applications and increase scalability. This paper
describes a methodology, namely BLEST-ML (BLock size ESTimation through Machine
Learning), for block size estimation that relies on supervised machine learning
techniques. The proposed methodology was evaluated by designing an
implementation tailored to dislib, a distributed computing library highly
focused on machine learning algorithms built on top of the PyCOMPSs framework.
We assessed the effectiveness of the provided implementation through an
extensive experimental evaluation considering different algorithms from dislib,
datasets, and infrastructures, including the MareNostrum 4 supercomputer. The
results we obtained show the ability of BLEST-ML to efficiently determine a
suitable way to split a given dataset, thus providing a proof of its
applicability to enable the efficient execution of data-parallel applications
in high performance environments.
- Abstract(参考訳): データ集約型アプリケーションを実行するためのHPCインフラストラクチャとフレームワークの広範な使用により、データパーティショニング技術や戦略への関心が高まっている。
実際、アプリケーションのパフォーマンスはデータのパーティショニングの仕方によって大きく影響を受ける可能性がある。
したがって、効率的なパーティショニング、すなわち適切なブロックサイズを見つけることは、並列データ集約アプリケーションの高速化とスケーラビリティ向上の鍵となる戦略である。
本稿では,教師付き機械学習技術に依存するブロックサイズ推定手法であるBLEST-ML(BLock size ESTimation through Machine Learning)について述べる。
提案手法は、PyCOMPSsフレームワーク上に構築された機械学習アルゴリズムに重点を置いた分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。
MareNostrum 4 スーパーコンピュータを含む,ディリブ,データセット,インフラストラクチャの異なるアルゴリズムを考慮した広範な実験評価により,提案手法の有効性を評価した。
その結果、blest-mlが与えられたデータセットを効率的に分割する方法を決定できることが示され、高性能環境でのデータ並列アプリケーションの効率的な実行を可能にするための適用性が証明された。
関連論文リスト
- Efficient $k$-NN Search in IoT Data: Overlap Optimization in Tree-Based Indexing Structures [0.6990493129893112]
IoT(Internet of Things)における相互接続デバイスの普及は、データの指数的な増加につながった。
この異種データの効率的な検索には、効果的な組織のための堅牢な索引付け機構が必要である。
データ空間分割の重複を定量化し、戦略的に低減する3つの革新的手法を提案する。
論文 参考訳(メタデータ) (2024-08-28T16:16:55Z) - A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。
我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-12-17T04:41:07Z) - Learned spatial data partitioning [7.342228103959199]
まず,空間データ分割を学習し,データの位置に基づいて空間データのグループをコンピュータに効果的に割り当てる。
我々は、強化学習の文脈における空間データの分割を形式化し、新しい深層強化学習アルゴリズムを開発する。
提案手法は,距離結合クエリを高速化するためのパーティションを効率よく見つけ,ワークロードの実行時間を最大59.4%削減する。
論文 参考訳(メタデータ) (2023-06-08T00:42:10Z) - Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。
BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。
本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-13T11:45:17Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - LSEC: Large-scale spectral ensemble clustering [8.545202841051582]
本稿では,効率と効率のバランスを良くするために,大規模スペクトルアンサンブルクラスタリング(LSEC)手法を提案する。
LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。
論文 参考訳(メタデータ) (2021-06-18T00:42:03Z) - An Accurate and Efficient Large-scale Regression Method through Best
Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。
クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文 参考訳(メタデータ) (2021-04-22T01:34:29Z) - Structured Inverted-File k-Means Clustering for High-Dimensional Sparse
Data [2.487445341407889]
本稿では,大規模かつ高次元スパースデータセットのためのアーキテクチャフレンドリーなk-meansクラスタリングアルゴリズムsivfを提案する。
性能解析の結果,sivfはキャッシュミス数と分岐予測の精度低下係数を低減し,高い速度を実現していることがわかった。
論文 参考訳(メタデータ) (2021-03-30T07:54:02Z) - A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。
ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。
大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文 参考訳(メタデータ) (2020-08-10T06:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。