論文の概要: JAMPI: efficient matrix multiplication in Spark using Barrier Execution
Mode
- arxiv url: http://arxiv.org/abs/2007.01811v1
- Date: Sat, 27 Jun 2020 17:31:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 08:07:42.744362
- Title: JAMPI: efficient matrix multiplication in Spark using Barrier Execution
Mode
- Title(参考訳): JAMPI:バリア実行モードを用いたSparkの効率的な行列乗算
- Authors: Tamas Foldi, Chris von Csefalvay and Nicolas A. Perez
- Abstract要約: Apache Sparkの新しいバリアモードでは、分散ディープラーニングトレーニングをSparkステージとして組み込むことができる。
我々はキャノンのアルゴリズムを用いて効率的な分散行列乗法を文書化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The new barrier mode in Apache Spark allows embedding distributed deep
learning training as a Spark stage to simplify the distributed training
workflow. In Spark, a task in a stage does not depend on any other tasks in the
same stage, and hence it can be scheduled independently. However, several
algorithms require more sophisticated inter-task communications, similar to the
MPI paradigm. By combining distributed message passing (using asynchronous
network IO), OpenJDK's new auto-vectorization and Spark's barrier execution
mode, we can add non-map/reduce based algorithms, such as Cannon's distributed
matrix multiplication to Spark. We document an efficient distributed matrix
multiplication using Cannon's algorithm, which improves significantly on the
performance of the existing MLlib implementation. Used within a barrier task,
the algorithm described herein results in an up to 24 percent performance
increase on a 10,000x10,000 square matrix with a significantly lower memory
footprint. Applications of efficient matrix multiplication include, among
others, accelerating the training and implementation of deep convolutional
neural network based workloads, and thus such efficient algorithms can play a
ground-breaking role in faster, more efficient execution of even the most
complicated machine learning tasks.
- Abstract(参考訳): Apache Sparkの新しいバリアモードでは、分散ディープラーニングトレーニングをSparkステージとして組み込んで、分散トレーニングワークフローを簡素化することができる。
sparkでは、ステージ内のタスクは同じステージ内の他のタスクに依存しないので、独立してスケジュールすることができる。
しかし、いくつかのアルゴリズムはmpiパラダイムと同様により洗練されたタスク間通信を必要とする。
分散メッセージパッシング(非同期ネットワークIOを使用する)、OpenJDKの新しいオートベクタ化とSparkのバリア実行モードを組み合わせることで、Cannonの分散マトリックス乗算のような非マップ/リデュースベースのアルゴリズムをSparkに追加できる。
既存のMLlib実装の性能を大幅に向上させるCannonのアルゴリズムを用いて,効率的な分散行列乗算を文書化する。
バリアータスク内で使用されるアルゴリズムは、メモリフットプリントが大幅に低い10,000×10,000平方マトリクスに対して、最大24%のパフォーマンス向上をもたらす。
効率的な行列乗算の応用には、特に、深層畳み込みニューラルネットワークベースのワークロードのトレーニングと実装の促進が含まれているため、このような効率的なアルゴリズムは、最も複雑な機械学習タスクでもより高速で効率的な実行において、画期的な役割を果たすことができる。
関連論文リスト
- Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - An Efficient Algorithm for Clustered Multi-Task Compressive Sensing [60.70532293880842]
クラスタ化マルチタスク圧縮センシングは、複数の圧縮センシングタスクを解決する階層モデルである。
このモデルに対する既存の推論アルゴリズムは計算コストが高く、高次元ではうまくスケールしない。
本稿では,これらの共分散行列を明示的に計算する必要をなくし,モデル推論を大幅に高速化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-30T15:57:14Z) - Provably Efficient Representation Learning with Tractable Planning in
Low-Rank POMDP [81.00800920928621]
部分的に観測可能なマルコフ決定過程(POMDP)における表現学習の研究
まず,不確実性(OFU)に直面した最大推定(MLE)と楽観性を組み合わせた復調性POMDPのアルゴリズムを提案する。
次に、このアルゴリズムをより広範な$gamma$-observable POMDPのクラスで機能させる方法を示す。
論文 参考訳(メタデータ) (2023-06-21T16:04:03Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - LearningGroup: A Real-Time Sparse Training on FPGA via Learnable Weight
Grouping for Multi-Agent Reinforcement Learning [2.0625936401496237]
マルチエージェント強化学習(MARL)は,対話型人工知能システムを構築するための強力な技術である。
本稿では,学習グループというリアルタイムスパース学習促進システムを提案する。
本システムでは,スパースデータ生成のサイクル時間とメモリフットプリントを最大5.72倍,6.81倍まで最小化する。
論文 参考訳(メタデータ) (2022-10-29T15:09:34Z) - Batch-efficient EigenDecomposition for Small and Medium Matrices [65.67315418971688]
EigenDecomposition (ED)は多くのコンピュータビジョンアルゴリズムとアプリケーションの中心にある。
本稿では,コンピュータビジョンの応用シナリオに特化したQRベースのED手法を提案する。
論文 参考訳(メタデータ) (2022-07-09T09:14:12Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - RDD-Eclat: Approaches to Parallelize Eclat Algorithm on Spark RDD
Framework (Extended Version) [1.480971531635033]
頻繁なアイテムセットマイニング(英: Frequent itemset mining、FIM)は、計算量とデータ集約アルゴリズムである。
近年,Hadoop MapReduce上にFIMアルゴリズムが多数設計されている。
MapReduceは、非常に反復的なFIMアルゴリズムでは非効率である。
本稿では,Spark RDDフレームワーク上の並列EclatアルゴリズムであるRDD-Eclatを提案する。
論文 参考訳(メタデータ) (2021-10-22T18:51:10Z) - Efficient GPU implementation of randomized SVD and its applications [17.71779625877989]
行列分解は、次元データの圧縮やディープラーニングアルゴリズムなど、機械学習においてユビキタスである。
行列分解の典型的な解は、計算コストと時間を大幅に増大させる複雑さを持つ。
我々は,計算行列分解の計算負担を軽減するために,現代のグラフィカル処理ユニット(GPU)で並列に動作する効率的な処理操作を利用する。
論文 参考訳(メタデータ) (2021-10-05T07:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。