論文の概要: Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients
through Just-in-Time Kernel Optimizations
- arxiv url: http://arxiv.org/abs/2309.08978v1
- Date: Sat, 16 Sep 2023 12:29:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 18:03:55.163670
- Title: Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients
through Just-in-Time Kernel Optimizations
- Title(参考訳): ジャストインタイムカーネル最適化によるブラウザ内深層学習の高速化
- Authors: Fucheng Jia, Shiqi Jiang, Ting Cao, Wei Cui, Tianrui Xia, Xu Cao,
Yuanchun Li, Deyu Zhang, Ju Ren, Yunxin Liu, Lili Qiu, Mao Yang
- Abstract要約: 本稿では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,最初のブラウザ内推論システムであるnn-JIT.webを提案する。
システムは、カーネル生成時間を著しく短縮できる2つの新しいWebプログラミング技術を用いてこれを実現している。
nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できる。
- 参考スコア(独自算出の注目度): 31.295962819723954
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Web applications are increasingly becoming the primary platform for AI
service delivery, making in-browser deep learning (DL) inference more
prominent. However, current in-browser inference systems fail to effectively
utilize advanced web programming techniques and customize kernels for various
client devices, leading to suboptimal performance.
To address the issues, this paper presents the first in-browser inference
system, nn-JIT.web, which enables just-in-time (JIT) auto-generation of
optimized kernels for both CPUs and GPUs during inference. The system achieves
this by using two novel web programming techniques that can significantly
reduce kernel generation time, compared to other tensor compilers such as TVM,
while maintaining or even improving performance. The first technique,
Tensor-Web Compiling Co-Design, lowers compiling costs by unifying tensor and
web compiling and eliminating redundant and ineffective compiling passes. The
second technique, Web-Specific Lite Kernel Optimization Space Design, reduces
kernel tuning costs by focusing on web programming requirements and efficient
hardware resource utilization, limiting the optimization space to only dozens.
nn-JIT.web is evaluated for modern transformer models on a range of client
devices, including the mainstream CPUs and GPUs from ARM, Intel, AMD and
Nvidia. Results show that nn-JIT.web can achieve up to 8.2x faster within 30
seconds compared to the baselines across various models.
- Abstract(参考訳): ブラウザ内ディープラーニング(DL)推論をより目立たせるように、Webアプリケーションは、AIサービスデリバリの主要なプラットフォームになりつつある。
しかし、現在のブラウザ内推論システムは、先進的なwebプログラミング手法を効果的に活用できず、様々なクライアントデバイス用のカーネルをカスタマイズする。
そこで本研究では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,ブラウザ内推論システム nn-JIT.web を提案する。
このシステムは、TVMのような他のテンソルコンパイラと比較してカーネル生成時間を大幅に短縮し、性能を維持・改善する2つの新しいWebプログラミング技術を用いて実現している。
最初のテクニックであるTensor-Web Compiling Co-Designは、テンソルとWebコンパイルを統合することでコンパイルコストを削減し、冗長で非効率なコンパイルパスを排除する。
第2のテクニックであるWeb-Specific Lite Kernel Optimization Space Designは、Webプログラミング要件と効率的なハードウェアリソース利用に焦点を当ててカーネルチューニングコストを削減し、最適化スペースを数十に制限する。
nn-JIT.webは、ARM、Intel、AMD、NvidiaのメインストリームCPUやGPUを含む、さまざまなクライアントデバイス上のモダンなトランスフォーマーモデルに対して評価されている。
その結果、nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できることがわかった。
関連論文リスト
- Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor
Abstractions on CPU Architectures [101.36990944099105]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - Deep Learning Models on CPUs: A Methodology for Efficient Training [1.7150798380270715]
本稿では,CPUを用いた深層学習モデルの学習にいくつかの貢献をする。
これは、Intel CPU上でディープラーニングモデルのトレーニングを最適化する手法と、ProfileDNNと呼ばれるツールキットを提供する。
論文 参考訳(メタデータ) (2022-06-20T22:42:14Z) - SOL: Reducing the Maintenance Overhead for Integrating Hardware Support
into AI Frameworks [0.7614628596146599]
Theano、Caffe、Chainer、CNTK、MxNet、PyTorch、DL4JといったAIフレームワークは、ハイレベルなスクリプティングAPIを提供する。
主流でないCPUやGPU、アクセラレータベンダは、これらのフレームワークでハードウェアをサポートするために、高い努力を払わなければならない。
NEC Laboratories Europeは、すでに数年前にSOL AI Optimizationプロジェクトの開発を開始した。
論文 参考訳(メタデータ) (2022-05-19T08:40:46Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Source Code Classification for Energy Efficiency in Parallel Ultra
Low-Power Microcontrollers [5.4352987210173955]
本稿では,ソフトウェアツールチェーンの知性を向上し,最新のアーキテクチャを最大限に活用することを目的とする。
低電力の並列組込みアーキテクチャの場合、これは、例えばコア数の観点から構成を見つけることを意味し、最小限のエネルギー消費につながる。
実験によれば、ソースコード上で機械学習モデルを使用して最適なエネルギースケーリング構成を自動的に選択することは可能であり、エネルギー最小化のための自動システム構成のコンテキストで使用できる可能性がある。
論文 参考訳(メタデータ) (2020-12-12T15:12:03Z) - PolyDL: Polyhedral Optimizations for Creation of High Performance DL
primitives [55.79741270235602]
本稿では,Deep Learningプリミティブの高性能実装を自動的に生成するコンパイラアルゴリズムを提案する。
我々は多面体モデルを用いた新しいデータ再利用分析アルゴリズムを開発した。
また、このようなハイブリッドコンパイラとライブラリ使用の最小限のアプローチが、最先端のパフォーマンスをもたらすことを示す。
論文 参考訳(メタデータ) (2020-06-02T06:44:09Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z) - PolyScientist: Automatic Loop Transformations Combined with Microkernels
for Optimization of Deep Learning Primitives [55.79741270235602]
深層学習カーネル開発のためのハイブリッドソリューションを開発する。
我々は、高度な多面体技術を用いて、パフォーマンスのために外部ループを自動的に調整する。
論文 参考訳(メタデータ) (2020-02-06T08:02:34Z) - Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。
この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。
本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文 参考訳(メタデータ) (2020-01-13T13:03:13Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。