論文の概要: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- arxiv url: http://arxiv.org/abs/2402.05981v1
- Date: Thu, 8 Feb 2024 08:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:06:25.992672
- Title: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- Title(参考訳): ブラウザ内ディープラーニング推論がユーザエクスペリエンスとパフォーマンスの質に及ぼす影響を探る
- Authors: Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li,
Ying Zhang, Yun Ma, Ting Cao, Xuanzhe Liu
- Abstract要約: ディープラーニング(DL)は、"ブラウザ内推論"と呼ばれる方法を通じて、Webアプリケーションに統合されつつある。
調査では、広く使われている9つのDLモデルを比較し、50のPC Webブラウザでテストした。
ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
- 参考スコア(独自算出の注目度): 20.612307023903593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning (DL) is increasingly being integrated into Web applications
through a method known as "in-browser inference", where the DL processes occur
directly within Web browsers. However, the actual performance of this method
and its effect on user experience quality (QoE) is not well-understood. This
gap in knowledge necessitates new forms of QoE measurement, going beyond
traditional metrics such as page load time. To address this, we conducted the
first extensive performance evaluation of in-browser inference. We introduced
new metrics for this purpose: responsiveness, smoothness, and inference
accuracy.
Our thorough study included 9 widely-used DL models and tested them across 50
popular PC Web browsers. The findings show a significant latency issue with
in-browser inference: it's on average 16.9 times slower on CPU and 4.9 times
slower on GPU than native inference methods. Several factors contribute to this
latency, including underused hardware instruction sets, inherent delays in the
runtime environment, resource competition within the browser, and
inefficiencies in software libraries and GPU abstractions.
Moreover, in-browser inference demands a lot of memory, sometimes up to 334.6
times more than the size of the DL models themselves. This excessive memory
usage is partly due to suboptimal memory management. Additionally, we noticed
that in-browser inference increases the time it takes for graphical user
interface (GUI) components to load in web browsers by a significant 67.2\%,
which severely impacts the overall QoE for users of web applications that
depend on this technology.
- Abstract(参考訳): ディープラーニング(DL)は"ブラウザ内推論(in-browser inference)"と呼ばれるメソッドを通じてWebアプリケーションに統合され、DLプロセスはWebブラウザ内で直接実行される。
しかし,本手法の実際の性能とユーザエクスペリエンス品質(QoE)への影響はよく理解されていない。
この知識のギャップは、ページの読み込み時間のような従来のメトリクスを超えて、QoE測定の新しい形式を必要とする。
そこで本研究では,ブラウザ内推論の性能評価を行った。
この目的のために、応答性、滑らか性、推論精度という新しい指標を導入しました。
私たちの徹底的な研究は、広く使われている9つのDLモデルを含み、50のPC Webブラウザでそれらをテストしました。
ブラウザ内での推論は、CPUでは平均16.9倍、GPUでは4.9倍遅い。
未使用のハードウェア命令セット、実行環境固有の遅延、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、いくつかの要因がこのレイテンシに寄与する。
さらに、ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
この過剰なメモリ使用は、部分的に最適化されたメモリ管理によるものである。
さらに、ブラウザ内推論は、グラフィカルユーザインタフェース(GUI)コンポーネントがWebブラウザにロードするのに要する時間を67.2\%増加させ、この技術に依存しているWebアプリケーションのユーザに対する全体的なQoEに重大な影響を及ぼすことに気づきました。
関連論文リスト
- Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。
現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。
我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文 参考訳(メタデータ) (2024-09-23T08:27:27Z) - An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。
nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - Native vs Web Apps: Comparing the Energy Consumption and Performance of
Android Apps and their Web Counterparts [5.18539596100998]
5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。
エネルギー消費、ネットワークトラフィック量、CPU負荷、メモリ負荷、およびネイティブおよびWebバージョンのフレーム時間に基づいて測定する。
論文 参考訳(メタデータ) (2023-08-31T13:51:56Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z) - Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning
and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。
これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。
モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文 参考訳(メタデータ) (2020-04-22T03:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。