論文の概要: Anatomizing Deep Learning Inference in Web Browsers
- arxiv url: http://arxiv.org/abs/2402.05981v2
- Date: Thu, 25 Jul 2024 13:37:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-26 19:36:52.790195
- Title: Anatomizing Deep Learning Inference in Web Browsers
- Title(参考訳): Webブラウザにおけるディープラーニング推論の解剖学的検討
- Authors: Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li, Yun Ma, Ting Cao, Xuanzhe Liu,
- Abstract要約: ブラウザ内推論の総合的なパフォーマンス測定を,これまでに初めて行った。
提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。
ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。
- 参考スコア(独自算出の注目度): 17.63663828498732
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Web applications have increasingly adopted Deep Learning (DL) through in-browser inference, wherein DL inference performs directly within Web browsers. The actual performance of in-browser inference and its impacts on the quality of experience (QoE) remain unexplored, and urgently require new QoE measurements beyond traditional ones, e.g., mainly focusing on page load time. To bridge this gap, we make the first comprehensive performance measurement of in-browser inference to date. Our approach proposes new metrics to measure in-browser inference: responsiveness, smoothness, and inference accuracy. Our extensive analysis involves 9 representative DL models across Web browsers of 50 popular PC devices and 20 mobile devices. The results reveal that in-browser inference exhibits a substantial latency gap, averaging 16.9 times slower on CPU and 4.9 times slower on GPU compared to native inference on PC devices. The gap on mobile CPU and mobile GPU is 15.8 times and 7.8 times, respectively. Furthermore, we identify contributing factors to such latency gap, including underutilized hardware instruction sets, inherent overhead in the runtime environment, resource contention within the browser, and inefficiencies in software libraries and GPU abstractions. Additionally, in-browser inference imposes significant memory demands, at times exceeding 334.6 times the size of the DL models themselves, partly attributable to suboptimal memory management. We also observe that in-browser inference leads to a significant 67.2% increase in the time it takes for GUI components to render within Web browsers, significantly affecting the overall user QoE of Web applications reliant on this technology
- Abstract(参考訳): Webアプリケーションは、ブラウザ内推論を通じて、ますますDeep Learning (DL)を採用しており、DL推論はWebブラウザ内で直接実行される。
ブラウザ内推論の実際のパフォーマンスと、QoE(Quality of Experience)への影響は、まだ明らかにされていない。
このギャップを埋めるために、ブラウザ内推論の総合的なパフォーマンス測定を、これまでで初めて行った。
提案手法は,ブラウザ内推論(応答性,滑らか性,推測精度)を測定するための新しい指標を提案する。
当社の広範な分析では、Webブラウザにまたがる、50のPCデバイスと20のモバイルデバイスの9つの代表的DLモデルについて検討した。
ブラウザ内推論は、CPUでは平均16.9倍、GPUでは4.9倍の遅延差を示す。
モバイルCPUとモバイルGPUのギャップは、それぞれ15.8倍と7.8倍である。
さらに、未使用のハードウェア命令セット、実行環境固有のオーバーヘッド、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、このようなレイテンシギャップへの寄与要因を同定する。
さらに、ブラウザ内での推論は、大きなメモリ要求を課し、時にはDLモデル自体の334.6倍の規模で、部分的には最適化されたメモリ管理に起因している。
また、ブラウザ内推論は、GUIコンポーネントがWebブラウザ内でレンダリングするのに要する時間において、67.2%の大幅な増加をもたらし、この技術に依存したWebアプリケーションのユーザQoE全体に大きな影響を与えていることも観察した。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。
nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - Native vs Web Apps: Comparing the Energy Consumption and Performance of
Android Apps and their Web Counterparts [5.18539596100998]
5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。
エネルギー消費、ネットワークトラフィック量、CPU負荷、メモリ負荷、およびネイティブおよびWebバージョンのフレーム時間に基づいて測定する。
論文 参考訳(メタデータ) (2023-08-31T13:51:56Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。