論文の概要: GPU backed Data Mining on Android Devices
- arxiv url: http://arxiv.org/abs/2112.04800v1
- Date: Thu, 9 Dec 2021 09:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:50:10.261706
- Title: GPU backed Data Mining on Android Devices
- Title(参考訳): androidデバイス上でのgpuによるデータマイニング
- Authors: Robert Fritze and Claudia Plant
- Abstract要約: AndroidデバイスでOpenCLを使用できるラッパーライブラリを作成しました。
我々はこのライブラリを用いて、Arm-v7タブレットの統合GPU上でのDBSCANとKmeansアルゴリズムの性能を比較した。
- 参考スコア(独自算出の注目度): 13.381440652961624
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Choosing an appropriate programming paradigm for high-performance computing
on low-power devices can be useful to speed up calculations. Many Android
devices have an integrated GPU and - although not officially supported - the
OpenCL framework can be used on Android devices for addressing these GPUs.
OpenCL supports thread and data parallelism. Applications that use the GPU must
account for the fact that they can be suspended by the user or the Android
operating system at any moment. We have created a wrapper library that allows
to use OpenCL on Android devices. Already written OpenCL programs can be
executed with almost no modification. We have used this library to compare the
performance of the DBSCAN and Kmeans algorithms on an integrated GPU of an
Arm-v7 tablet with other single and multithreaded implementations on the same
device. We have investigated which programming paradigm and language allows the
best tradeoff between execution speed and energy consumption. Using the GPU for
HPC on Android devices can help to carry out computationally intensive machine
learning or data mining tasks in remote areas, under harsh environmental
conditions and in areas where energy supply is an issue.
- Abstract(参考訳): 低消費電力デバイス上での高性能コンピューティングに適したプログラミングパラダイムの選択は、計算の高速化に有用である。
多くのAndroidデバイスはGPUを統合しており、公式にはサポートされていないが、OpenCLフレームワークはこれらのGPUに対処するためにAndroidデバイスで使用できる。
openclはスレッドとデータ並列処理をサポートする。
GPUを使用するアプリケーションは、いつでもユーザまたはAndroidオペレーティングシステムによって停止できるという事実を考慮しなければならない。
私たちはandroidデバイスでopenclを使用できるラッパーライブラリを作成しました。
既に書かれたOpenCLプログラムはほとんど修正することなく実行できる。
我々はこのライブラリを用いて、Arm-v7タブレットのGPU上でのDBSCANとKmeansアルゴリズムの性能を、同一デバイス上での他のシングルおよびマルチスレッドの実装と比較した。
我々は,実行速度とエネルギー消費の最良のトレードオフを実現するプログラミングパラダイムと言語について検討した。
Androidデバイス上のHPCにGPUを使用することで、計算集約的な機械学習やデータマイニングタスクを、厳しい環境条件下で、およびエネルギー供給が問題となる領域で実行できるようになる。
関連論文リスト
- FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FlexGen: High-Throughput Generative Inference of Large Language Models
with a Single GPU [89.2451963569343]
FlexGenは、単一のコモディティGPU上で大きな言語モデル(LLM)推論を実行するための世代エンジンである。
1つの16GB GPU上でOPT-175Bを実行する場合、FlexGenは最先端のオフロードシステムに比べてスループットが大幅に向上する。
HELMベンチマークでは、FlexGenは7つの代表サブシナリオに16GBのGPUで30Bモデルを21時間でベンチマークすることができる。
論文 参考訳(メタデータ) (2023-03-13T05:19:28Z) - PARIS and ELSA: An Elastic Scheduling Algorithm for Reconfigurable
Multi-GPU Inference Servers [0.9854614058492648]
NVIDIAのAmpere GPUアーキテクチャは、1つの大きなモノリシックGPUを複数の小さな"GPUパーティション"に"再構成"する機能を提供する。
本稿では,この新しいGPUアーキテクチャを再構成性で検討し,高性能なマルチGPUML推論サーバを開発する。
論文 参考訳(メタデータ) (2022-02-27T23:30:55Z) - PLSSVM: A (multi-)GPGPU-accelerated Least Squares Support Vector Machine [68.8204255655161]
Support Vector Machines (SVM) は機械学習で広く使われている。
しかし、現代的で最適化された実装でさえ、最先端ハードウェア上の大きな非自明な高密度データセットにはうまくスケールしない。
PLSSVMはLVMのドロップイン代替として使用できる。
論文 参考訳(メタデータ) (2022-02-25T13:24:23Z) - Enabling On-Device Smartphone GPU based Training: Lessons Learned [10.420617367363047]
モバイルGPUを用いたスマートフォン上でのオンデバイストレーニングの実現可能性について,初期分析を行った。
このボトルネックを解決するため、我々はOpenCLバックエンドのカーネルを最適化し、CPUよりも2倍の改善(40-70 GFLOP)を示した。
データムーブメントは、低帯域幅のため、トレーニング時間の約91%を要します。
論文 参考訳(メタデータ) (2022-02-21T10:29:16Z) - Providing Meaningful Data Summarizations Using Examplar-based Clustering
in Industry 4.0 [67.80123919697971]
我々は,従来のCPUアルゴリズムと比較して,一精度で最大72倍,半精度で最大452倍の高速化を実現していることを示す。
提案アルゴリズムは射出成形プロセスから得られた実世界のデータに適用し, 得られたサマリーが, コスト削減と不良部品製造の削減のために, この特定のプロセスのステアリングにどのように役立つかについて議論する。
論文 参考訳(メタデータ) (2021-05-25T15:55:14Z) - RTGPU: Real-Time GPU Scheduling of Hard Deadline Parallel Tasks with
Fine-Grain Utilization [5.02836935036198]
本論文では,複数のGPUアプリケーションの実行をリアルタイムにスケジュール可能なRTGPUを提案する。
提案手法は,従来の作業に比べてスケジューリング性に優れ,複数のGPUアプリケーションに厳しい期限をリアルタイムに保証する。
論文 参考訳(メタデータ) (2021-01-25T22:34:06Z) - Kernel methods through the roof: handling billions of points efficiently [94.31450736250918]
カーネル法は、非パラメトリック学習に対するエレガントで原則化されたアプローチを提供するが、今のところ大規模な問題ではほとんど利用できない。
最近の進歩は、最適化、数値線形代数、ランダム射影など、多くのアルゴリズム的アイデアの利点を示している。
ここでは、これらの取り組みをさらに進めて、GPUハードウェアを最大限に活用する解決器を開発し、テストする。
論文 参考訳(メタデータ) (2020-06-18T08:16:25Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。