論文の概要: Towards High Performance Java-based Deep Learning Frameworks
- arxiv url: http://arxiv.org/abs/2001.04206v1
- Date: Mon, 13 Jan 2020 13:03:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-11 23:50:54.501376
- Title: Towards High Performance Java-based Deep Learning Frameworks
- Title(参考訳): 高性能なJavaベースのディープラーニングフレームワークを目指して
- Authors: Athanasios Stratikopoulos, Juan Fumero, Zoran Sevarac and Christos
Kotselidis
- Abstract要約: 現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
- 参考スコア(独自算出の注目度): 0.22940141855172028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of modern cloud services along with the huge volume of data
produced on a daily basis, have set the demand for fast and efficient data
processing. This demand is common among numerous application domains, such as
deep learning, data mining, and computer vision. Prior research has focused on
employing hardware accelerators as a means to overcome this inefficiency. This
trend has driven software development to target heterogeneous execution, and
several modern computing systems have incorporated a mixture of diverse
computing components, including GPUs and FPGAs. However, the specialization of
the applications' code for heterogeneous execution is not a trivial task, as it
requires developers to have hardware expertise in order to obtain high
performance. The vast majority of the existing deep learning frameworks that
support heterogeneous acceleration, rely on the implementation of wrapper calls
from a high-level programming language to a low-level accelerator backend, such
as OpenCL, CUDA or HLS.
In this paper we have employed TornadoVM, a state-of-the-art heterogeneous
programming framework to transparently accelerate Deep Netts; a Java-based deep
learning framework. Our initial results demonstrate up to 8x performance
speedup when executing the back propagation process of the network's training
on AMD GPUs against the sequential execution of the original Deep Netts
framework.
- Abstract(参考訳): 現代のクラウドサービスの出現は、日々発生している膨大な量のデータとともに、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
以前の研究は、ハードウェアアクセラレーターをこの非効率を克服する手段として採用することに重点を置いてきた。
この傾向により、ソフトウェア開発は不均一な実行をターゲットにし、現代のコンピューティングシステムにはGPUやFPGAなど、さまざまなコンピューティングコンポーネントが混在している。
しかし、不均一実行のためのアプリケーションのコードの特殊化は、開発者が高性能を得るためにハードウェアの専門知識を必要とするため、簡単な作業ではない。
ヘテロジニアスアクセラレーションをサポートする既存のディープラーニングフレームワークの大部分は、OpenCL、CUDA、HLSといった低レベルのアクセラレーションバックエンドへの高レベルプログラミング言語からのラッパーコールの実装に依存している。
本稿では,JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化するために,最先端の異種プログラミングフレームワークであるTornadoVMを採用した。
最初の結果は、元のDeep Nettsフレームワークのシーケンシャルな実行に対して、AMD GPU上でネットワークトレーニングのバック伝搬プロセスを実行する場合、最大8倍の性能向上を示す。
関連論文リスト
- DeepContext: A Context-aware, Cross-platform, and Cross-framework Tool for Performance Profiling and Analysis of Deep Learning Workloads [5.987963635879264]
本稿では,高レベルのPythonコード,ディープラーニングフレームワーク,C/C++で記述された基盤ライブラリ,GPU上で実行されるデバイスコードなど,プログラムコンテキストをリンクする新しいプロファイラであるDeepContextを紹介する。
DeepContextには、PyTorchやJAXといった主要なディープラーニングフレームワークのための粗いパフォーマンスメトリクスときめ細かいパフォーマンスメトリクスの両方が組み込まれています。
さらにDeepContextは、ユーザがホットスポットを素早く識別できる新しいGUIと、パフォーマンスメトリクスとプログラムコンテキストに基づいた潜在的な最適化をユーザに提案する革新的な自動パフォーマンスアナライザを統合している。
論文 参考訳(メタデータ) (2024-11-05T04:15:26Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Towards making the most of NLP-based device mapping optimization for
OpenCL kernels [5.6596607119831575]
我々は、加速されたOpenCLカーネルのための最適なデバイス選択(CPUまたはGPU)の問題に取り組むCummins et al.、すなわちDeeptuneの開発を拡張した。
ソースコードの文脈情報を拡張した4つの異なるモデルを提案する。
実験の結果,提案手法はCumminsらの手法を上回り,予測精度を最大4%向上させることがわかった。
論文 参考訳(メタデータ) (2022-08-30T10:20:55Z) - Operation-Level Performance Benchmarking of Graph Neural Networks for
Scientific Applications [0.15469452301122172]
我々は、Pytorch Geometric Softwareフレームワークで実装された科学計算のために、グラフニューラルネットワーク(GNN)に関連する低レベルの演算をプロファイルし、選択する。
次にこれらをNVIDIA A100 GPU上で厳格にベンチマークし、テンソル間隔を含むいくつかの入力値の組み合わせを行う。
1) メモリの非効率性のようなボトルネックを解消することは、データ空間のみよりも実行時コストを優先することが多い。
これらの結果は、特殊なハードウェア上でこれらの操作を開発する人々のベースラインとして役立ち、その後の分析が将来のソフトウェアおよびハードウェアベースの最適化を促進するのに役立つことを願っています。
論文 参考訳(メタデータ) (2022-07-20T15:01:12Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Heterogeneous CPU+GPU Stochastic Gradient Descent Algorithms [1.3249453757295084]
ヘテロジニアスCPU+GPUアーキテクチャの深層学習のためのトレーニングアルゴリズムについて検討する。
私たちの2倍の目標 -- 収束率と資源利用を同時に最大化する -- は、この問題を難しくします。
これらのアルゴリズムの実装は,複数の実データセットよりも高速な収束と資源利用の両立を実現していることを示す。
論文 参考訳(メタデータ) (2020-04-19T05:21:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。