論文の概要: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- arxiv url: http://arxiv.org/abs/2402.05981v1
- Date: Thu, 8 Feb 2024 08:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:06:25.992672
- Title: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- Title(参考訳): ブラウザ内ディープラーニング推論がユーザエクスペリエンスとパフォーマンスの質に及ぼす影響を探る
- Authors: Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li,
Ying Zhang, Yun Ma, Ting Cao, Xuanzhe Liu
- Abstract要約: ディープラーニング(DL)は、"ブラウザ内推論"と呼ばれる方法を通じて、Webアプリケーションに統合されつつある。
調査では、広く使われている9つのDLモデルを比較し、50のPC Webブラウザでテストした。
ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
- 参考スコア(独自算出の注目度): 20.612307023903593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning (DL) is increasingly being integrated into Web applications
through a method known as "in-browser inference", where the DL processes occur
directly within Web browsers. However, the actual performance of this method
and its effect on user experience quality (QoE) is not well-understood. This
gap in knowledge necessitates new forms of QoE measurement, going beyond
traditional metrics such as page load time. To address this, we conducted the
first extensive performance evaluation of in-browser inference. We introduced
new metrics for this purpose: responsiveness, smoothness, and inference
accuracy.
Our thorough study included 9 widely-used DL models and tested them across 50
popular PC Web browsers. The findings show a significant latency issue with
in-browser inference: it's on average 16.9 times slower on CPU and 4.9 times
slower on GPU than native inference methods. Several factors contribute to this
latency, including underused hardware instruction sets, inherent delays in the
runtime environment, resource competition within the browser, and
inefficiencies in software libraries and GPU abstractions.
Moreover, in-browser inference demands a lot of memory, sometimes up to 334.6
times more than the size of the DL models themselves. This excessive memory
usage is partly due to suboptimal memory management. Additionally, we noticed
that in-browser inference increases the time it takes for graphical user
interface (GUI) components to load in web browsers by a significant 67.2\%,
which severely impacts the overall QoE for users of web applications that
depend on this technology.
- Abstract(参考訳): ディープラーニング(DL)は"ブラウザ内推論(in-browser inference)"と呼ばれるメソッドを通じてWebアプリケーションに統合され、DLプロセスはWebブラウザ内で直接実行される。
しかし,本手法の実際の性能とユーザエクスペリエンス品質(QoE)への影響はよく理解されていない。
この知識のギャップは、ページの読み込み時間のような従来のメトリクスを超えて、QoE測定の新しい形式を必要とする。
そこで本研究では,ブラウザ内推論の性能評価を行った。
この目的のために、応答性、滑らか性、推論精度という新しい指標を導入しました。
私たちの徹底的な研究は、広く使われている9つのDLモデルを含み、50のPC Webブラウザでそれらをテストしました。
ブラウザ内での推論は、CPUでは平均16.9倍、GPUでは4.9倍遅い。
未使用のハードウェア命令セット、実行環境固有の遅延、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、いくつかの要因がこのレイテンシに寄与する。
さらに、ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
この過剰なメモリ使用は、部分的に最適化されたメモリ管理によるものである。
さらに、ブラウザ内推論は、グラフィカルユーザインタフェース(GUI)コンポーネントがWebブラウザにロードするのに要する時間を67.2\%増加させ、この技術に依存しているWebアプリケーションのユーザに対する全体的なQoEに重大な影響を及ぼすことに気づきました。
関連論文リスト
- WebLLM: A High-Performance In-Browser LLM Inference Engine [9.771248136952039]
WebLLMはオープンソースのフレームワークで、Webブラウザで高性能なLLM推論を可能にする。
WebLLMは、Webアプリケーションにシームレスに統合するためのOpenAIスタイルのAPIを提供する。
WebLLMは、同じデバイス上で80%のネイティブパフォーマンスを維持することができる。
論文 参考訳(メタデータ) (2024-12-20T11:24:13Z) - Towards Real-Time Open-Vocabulary Video Instance Segmentation [88.04508795121681]
オープン語彙ビデオインスタンス分割(OV-VIS)をリアルタイムに実行するための新しい手法を提案する。
TROY-VISは2つの大規模OV-VISベンチマークで精度と速度の最良のトレードオフを達成する。
これらの結果は,モバイルロボティクスや拡張現実といった動的環境におけるTROY-VISのリアルタイム応用の可能性を示している。
論文 参考訳(メタデータ) (2024-12-05T18:53:13Z) - An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。
まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。
第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文 参考訳(メタデータ) (2024-09-13T17:45:53Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。
nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。
その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - Native vs Web Apps: Comparing the Energy Consumption and Performance of
Android Apps and their Web Counterparts [5.18539596100998]
5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。
エネルギー消費、ネットワークトラフィック量、CPU負荷、メモリ負荷、およびネイティブおよびWebバージョンのフレーム時間に基づいて測定する。
論文 参考訳(メタデータ) (2023-08-31T13:51:56Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。
MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。
また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2022-04-27T14:00:48Z) - Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。
現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。
低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文 参考訳(メタデータ) (2021-01-18T22:13:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。