Fugu-MT 論文翻訳(概要): Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients through Just-in-Time Kernel Optimizations

論文の概要: Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients through Just-in-Time Kernel Optimizations

arxiv url: http://arxiv.org/abs/2309.08978v1
Date: Sat, 16 Sep 2023 12:29:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 18:03:55.163670
Title: Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients through Just-in-Time Kernel Optimizations
Title（参考訳）: ジャストインタイムカーネル最適化によるブラウザ内深層学習の高速化
Authors: Fucheng Jia, Shiqi Jiang, Ting Cao, Wei Cui, Tianrui Xia, Xu Cao, Yuanchun Li, Deyu Zhang, Ju Ren, Yunxin Liu, Lili Qiu, Mao Yang
Abstract要約: 本稿では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,最初のブラウザ内推論システムであるnn-JIT.webを提案する。システムは、カーネル生成時間を著しく短縮できる2つの新しいWebプログラミング技術を用いてこれを実現している。 nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できる。
参考スコア（独自算出の注目度）: 31.295962819723954
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Web applications are increasingly becoming the primary platform for AI service delivery, making in-browser deep learning (DL) inference more prominent. However, current in-browser inference systems fail to effectively utilize advanced web programming techniques and customize kernels for various client devices, leading to suboptimal performance. To address the issues, this paper presents the first in-browser inference system, nn-JIT.web, which enables just-in-time (JIT) auto-generation of optimized kernels for both CPUs and GPUs during inference. The system achieves this by using two novel web programming techniques that can significantly reduce kernel generation time, compared to other tensor compilers such as TVM, while maintaining or even improving performance. The first technique, Tensor-Web Compiling Co-Design, lowers compiling costs by unifying tensor and web compiling and eliminating redundant and ineffective compiling passes. The second technique, Web-Specific Lite Kernel Optimization Space Design, reduces kernel tuning costs by focusing on web programming requirements and efficient hardware resource utilization, limiting the optimization space to only dozens. nn-JIT.web is evaluated for modern transformer models on a range of client devices, including the mainstream CPUs and GPUs from ARM, Intel, AMD and Nvidia. Results show that nn-JIT.web can achieve up to 8.2x faster within 30 seconds compared to the baselines across various models.
Abstract（参考訳）: ブラウザ内ディープラーニング(DL)推論をより目立たせるように、Webアプリケーションは、AIサービスデリバリの主要なプラットフォームになりつつある。しかし、現在のブラウザ内推論システムは、先進的なwebプログラミング手法を効果的に活用できず、様々なクライアントデバイス用のカーネルをカスタマイズする。そこで本研究では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,ブラウザ内推論システム nn-JIT.web を提案する。このシステムは、TVMのような他のテンソルコンパイラと比較してカーネル生成時間を大幅に短縮し、性能を維持・改善する2つの新しいWebプログラミング技術を用いて実現している。最初のテクニックであるTensor-Web Compiling Co-Designは、テンソルとWebコンパイルを統合することでコンパイルコストを削減し、冗長で非効率なコンパイルパスを排除する。第2のテクニックであるWeb-Specific Lite Kernel Optimization Space Designは、Webプログラミング要件と効率的なハードウェアリソース利用に焦点を当ててカーネルチューニングコストを削減し、最適化スペースを数十に制限する。 nn-JIT.webは、ARM、Intel、AMD、NvidiaのメインストリームCPUやGPUを含む、さまざまなクライアントデバイス上のモダンなトランスフォーマーモデルに対して評価されている。その結果、nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できることがわかった。

関連論文リスト

WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers [4.817548755757474]
ブラウザ内の近接探索(ANNS)は、現代のAIインフラにとって不可欠である。本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
論文参考訳（メタデータ） (2025-07-01T07:37:18Z)
Latency optimized Deep Neural Networks (DNNs): An Artificial Intelligence approach at the Edge using Multiprocessor System on Chip (MPSoC) [1.949471382288103]
モバイルデバイスにおけるエッジコンピューティング(Edge at Edge)は、この要件に対処するための最適化されたアプローチのひとつだ。本研究では,低レイテンシ・電力最適化型スマートモバイルシステムの実現の可能性と課題について考察する。組込みFPGAエッジデバイス上でのニューラルネットワーク(NN)の性能と実装可能性について論じる。
論文参考訳（メタデータ） (2024-07-16T11:51:41Z)
Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。 1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-04-25T05:04:44Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文参考訳（メタデータ） (2022-01-18T13:59:22Z)
An Adaptive Device-Edge Co-Inference Framework Based on Soft Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文参考訳（メタデータ） (2022-01-09T09:31:50Z)
Automated Design Space Exploration for optimised Deployment of DNN on Arm Cortex-A CPUs [13.628734116014819]
組み込みデバイスにおけるディープラーニングは、ディープニューラルネットワーク(DNN)のデプロイを最適化する多くの方法の開発を促している。テストし、グローバルに最適化されたソリューションを得るには、アプローチの空間が大きすぎるため、クロスレベル最適化に関する研究が不足している。我々は、Arm Cortex-A CPUプラットフォーム上での最先端DNNの一連の結果を示し、最大4倍の性能向上とメモリの2倍以上の削減を実現した。
論文参考訳（メタデータ） (2020-06-09T11:00:06Z)
Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文参考訳（メタデータ） (2020-04-22T03:18:23Z)
Towards High Performance Java-based Deep Learning Frameworks [0.22940141855172028]
現代のクラウドサービスは、高速で効率的なデータ処理の需要を定めている。この需要は、ディープラーニング、データマイニング、コンピュータビジョンなど、多くのアプリケーション領域に共通している。本稿では、JavaベースのディープラーニングフレームワークであるDeep Nettsを透過的に高速化する最先端のプログラミングフレームワークであるTornadoVMを採用しました。
論文参考訳（メタデータ） (2020-01-13T13:03:13Z)
PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文参考訳（メタデータ） (2020-01-01T04:52:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。