Fugu-MT 論文翻訳(概要): Block size estimation for data partitioning in HPC applications using machine learning techniques

論文の概要: Block size estimation for data partitioning in HPC applications using machine learning techniques

arxiv url: http://arxiv.org/abs/2211.10819v2
Date: Wed, 31 Jan 2024 22:02:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-02 20:16:41.129766
Title: Block size estimation for data partitioning in HPC applications using machine learning techniques
Title（参考訳）: 機械学習を用いたHPCアプリケーションにおけるデータ分割のためのブロックサイズ推定
Authors: Riccardo Cantini, Fabrizio Marozzo, Alessio Orsino, Domenico Talia, Paolo Trunfio, Rosa M. Badia, Jorge Ejarque, Fernando Vazquez
Abstract要約: 本稿では,ブロックサイズ推定のためのBLEST-ML(BLock size ESTimation through Machine Learning)手法について述べる。提案手法は分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。その結果、BLEST-MLが与えられたデータセットを分割する適切な方法を効率的に決定できることを示した。
参考スコア（独自算出の注目度）: 38.063905789566746
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The extensive use of HPC infrastructures and frameworks for running dataintensive applications has led to a growing interest in data partitioning techniques and strategies. In fact, application performance can be heavily affected by how data are partitioned, which in turn depends on the selected size for data blocks, i.e. the block size. Therefore, finding an effective partitioning, i.e. a suitable block size, is a key strategy to speed-up parallel data-intensive applications and increase scalability. This paper describes a methodology, namely BLEST-ML (BLock size ESTimation through Machine Learning), for block size estimation that relies on supervised machine learning techniques. The proposed methodology was evaluated by designing an implementation tailored to dislib, a distributed computing library highly focused on machine learning algorithms built on top of the PyCOMPSs framework. We assessed the effectiveness of the provided implementation through an extensive experimental evaluation considering different algorithms from dislib, datasets, and infrastructures, including the MareNostrum 4 supercomputer. The results we obtained show the ability of BLEST-ML to efficiently determine a suitable way to split a given dataset, thus providing a proof of its applicability to enable the efficient execution of data-parallel applications in high performance environments.
Abstract（参考訳）: データ集約型アプリケーションを実行するためのHPCインフラストラクチャとフレームワークの広範な使用により、データパーティショニング技術や戦略への関心が高まっている。実際、アプリケーションのパフォーマンスはデータのパーティショニングの仕方によって大きく影響を受ける可能性がある。したがって、効率的なパーティショニング、すなわち適切なブロックサイズを見つけることは、並列データ集約アプリケーションの高速化とスケーラビリティ向上の鍵となる戦略である。本稿では,教師付き機械学習技術に依存するブロックサイズ推定手法であるBLEST-ML(BLock size ESTimation through Machine Learning)について述べる。提案手法は、PyCOMPSsフレームワーク上に構築された機械学習アルゴリズムに重点を置いた分散コンピューティングライブラリであるdislibに適した実装を設計することで評価された。 MareNostrum 4 スーパーコンピュータを含む,ディリブ,データセット,インフラストラクチャの異なるアルゴリズムを考慮した広範な実験評価により,提案手法の有効性を評価した。その結果、blest-mlが与えられたデータセットを効率的に分割する方法を決定できることが示され、高性能環境でのデータ並列アプリケーションの効率的な実行を可能にするための適用性が証明された。

関連論文リスト

MiniCPM4: Ultra-Efficient LLMs on End Devices [124.73631357883228]
MiniCPM4は、エンドサイドデバイス向けに明示的に設計された高効率な大規模言語モデル(LLM)である。この効率性は、モデルアーキテクチャ、トレーニングデータ、トレーニングアルゴリズム、推論システムという4つの重要な側面において、体系的な革新を通じて達成します。 MiniCPM4は、それぞれ0.5Bと8Bのパラメータを持つ2つのバージョンで利用可能である。
論文参考訳（メタデータ） (2025-06-09T16:16:50Z)
A Review and Analysis of a Parallel Approach for Decision Tree Learning from Large Data Streams [0.0]
この研究は、スケーラブルで効率的なデータ解析のために設計された並列決定木学習アルゴリズムpdsCARTの1つを研究する。データストリームからのリアルタイム学習をサポートし、木を段階的に構築できる。第二に、高ボリュームのストリーミングデータの並列処理を可能にし、大規模アプリケーションに適している。
論文参考訳（メタデータ） (2025-05-17T01:07:25Z)
Efficient $k$-NN Search in IoT Data: Overlap Optimization in Tree-Based Indexing Structures [0.6990493129893112]
IoT(Internet of Things)における相互接続デバイスの普及は、データの指数的な増加につながった。この異種データの効率的な検索には、効果的な組織のための堅牢な索引付け機構が必要である。データ空間分割の重複を定量化し、戦略的に低減する3つの革新的手法を提案する。
論文参考訳（メタデータ） (2024-08-28T16:16:55Z)
A Weighted K-Center Algorithm for Data Subset Selection [70.49696246526199]
サブセット選択は、トレーニングデータの小さな部分を特定する上で重要な役割を果たす、基本的な問題である。我々は,k中心および不確かさサンプリング目的関数の重み付け和に基づいて,サブセットを計算する新しい係数3近似アルゴリズムを開発した。
論文参考訳（メタデータ） (2023-12-17T04:41:07Z)
Learned spatial data partitioning [7.342228103959199]
まず,空間データ分割を学習し,データの位置に基づいて空間データのグループをコンピュータに効果的に割り当てる。我々は、強化学習の文脈における空間データの分割を形式化し、新しい深層強化学習アルゴリズムを開発する。提案手法は,距離結合クエリを高速化するためのパーティションを効率よく見つけ,ワークロードの実行時間を最大59.4%削減する。
論文参考訳（メタデータ） (2023-06-08T00:42:10Z)
Scalable Batch Acquisition for Deep Bayesian Active Learning [70.68403899432198]
ディープラーニングでは、各ステップでマークアップする複数の例を選択することが重要です。 BatchBALDのような既存のソリューションでは、多くの例を選択する際に大きな制限がある。本稿では,より計算効率のよいLarge BatchBALDアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-01-13T11:45:17Z)
Asynchronous Parallel Incremental Block-Coordinate Descent for Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文参考訳（メタデータ） (2022-02-07T15:04:15Z)
Compactness Score: A Fast Filter Method for Unsupervised Feature Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文参考訳（メタデータ） (2022-01-31T13:01:37Z)
LSEC: Large-scale spectral ensemble clustering [8.545202841051582]
本稿では,効率と効率のバランスを良くするために,大規模スペクトルアンサンブルクラスタリング(LSEC)手法を提案する。 LSEC法は既存のアンサンブルクラスタリング法よりも計算複雑性が低い。
論文参考訳（メタデータ） (2021-06-18T00:42:03Z)
An Accurate and Efficient Large-scale Regression Method through Best Friend Clustering [10.273838113763192]
データサンプルの中で最も重要な情報を捉えた、新規でシンプルなデータ構造を提案します。クラスタリングと回帰テクニックを並列ライブラリとして組み合わせ、データのハイブリッド構造とモデルの並列性を利用して予測を行います。
論文参考訳（メタデータ） (2021-04-22T01:34:29Z)
Structured Inverted-File k-Means Clustering for High-Dimensional Sparse Data [2.487445341407889]
本稿では,大規模かつ高次元スパースデータセットのためのアーキテクチャフレンドリーなk-meansクラスタリングアルゴリズムsivfを提案する。性能解析の結果,sivfはキャッシュミス数と分岐予測の精度低下係数を低減し,高い速度を実現していることがわかった。
論文参考訳（メタデータ） (2021-03-30T07:54:02Z)
A Survey on Large-scale Machine Learning [67.6997613600942]
機械学習はデータに対する深い洞察を与え、マシンが高品質な予測を行うことを可能にする。ほとんどの高度な機械学習アプローチは、大規模なデータを扱う場合の膨大な時間コストに悩まされる。大規模機械学習は、ビッグデータからパターンを、同等のパフォーマンスで効率的に学習することを目的としている。
論文参考訳（メタデータ） (2020-08-10T06:07:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。