論文の概要: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- arxiv url: http://arxiv.org/abs/2402.05981v1
- Date: Thu, 8 Feb 2024 08:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 19:06:25.992672
- Title: Exploring the Impact of In-Browser Deep Learning Inference on Quality of
User Experience and Performance
- Title(参考訳): ブラウザ内ディープラーニング推論がユーザエクスペリエンスとパフォーマンスの質に及ぼす影響を探る
- Authors: Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li,
Ying Zhang, Yun Ma, Ting Cao, Xuanzhe Liu
- Abstract要約: ディープラーニング(DL)は、"ブラウザ内推論"と呼ばれる方法を通じて、Webアプリケーションに統合されつつある。
調査では、広く使われている9つのDLモデルを比較し、50のPC Webブラウザでテストした。
ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
- 参考スコア(独自算出の注目度): 20.612307023903593
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep Learning (DL) is increasingly being integrated into Web applications
through a method known as "in-browser inference", where the DL processes occur
directly within Web browsers. However, the actual performance of this method
and its effect on user experience quality (QoE) is not well-understood. This
gap in knowledge necessitates new forms of QoE measurement, going beyond
traditional metrics such as page load time. To address this, we conducted the
first extensive performance evaluation of in-browser inference. We introduced
new metrics for this purpose: responsiveness, smoothness, and inference
accuracy.
Our thorough study included 9 widely-used DL models and tested them across 50
popular PC Web browsers. The findings show a significant latency issue with
in-browser inference: it's on average 16.9 times slower on CPU and 4.9 times
slower on GPU than native inference methods. Several factors contribute to this
latency, including underused hardware instruction sets, inherent delays in the
runtime environment, resource competition within the browser, and
inefficiencies in software libraries and GPU abstractions.
Moreover, in-browser inference demands a lot of memory, sometimes up to 334.6
times more than the size of the DL models themselves. This excessive memory
usage is partly due to suboptimal memory management. Additionally, we noticed
that in-browser inference increases the time it takes for graphical user
interface (GUI) components to load in web browsers by a significant 67.2\%,
which severely impacts the overall QoE for users of web applications that
depend on this technology.
- Abstract(参考訳): ディープラーニング(DL)は"ブラウザ内推論(in-browser inference)"と呼ばれるメソッドを通じてWebアプリケーションに統合され、DLプロセスはWebブラウザ内で直接実行される。
しかし,本手法の実際の性能とユーザエクスペリエンス品質(QoE)への影響はよく理解されていない。
この知識のギャップは、ページの読み込み時間のような従来のメトリクスを超えて、QoE測定の新しい形式を必要とする。
そこで本研究では,ブラウザ内推論の性能評価を行った。
この目的のために、応答性、滑らか性、推論精度という新しい指標を導入しました。
私たちの徹底的な研究は、広く使われている9つのDLモデルを含み、50のPC Webブラウザでそれらをテストしました。
ブラウザ内での推論は、CPUでは平均16.9倍、GPUでは4.9倍遅い。
未使用のハードウェア命令セット、実行環境固有の遅延、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、いくつかの要因がこのレイテンシに寄与する。
さらに、ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
この過剰なメモリ使用は、部分的に最適化されたメモリ管理によるものである。
さらに、ブラウザ内推論は、グラフィカルユーザインタフェース(GUI)コンポーネントがWebブラウザにロードするのに要する時間を67.2\%増加させ、この技術に依存しているWebアプリケーションのユーザに対する全体的なQoEに重大な影響を及ぼすことに気づきました。
関連論文リスト
- Green AI: A Preliminary Empirical Study on Energy Consumption in DL
Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。
これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文 参考訳(メタデータ) (2024-02-21T09:18:44Z) - Accelerating In-Browser Deep Learning Inference on Diverse Edge Clients
through Just-in-Time Kernel Optimizations [31.295962819723954]
本稿では,CPUとGPUの両方に最適化されたカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする,最初のブラウザ内推論システムであるnn-JIT.webを提案する。
システムは、カーネル生成時間を著しく短縮できる2つの新しいWebプログラミング技術を用いてこれを実現している。
nn-JIT.webは、様々なモデルのベースラインと比較して、30秒で最大8.2倍高速に達成できる。
論文 参考訳(メタデータ) (2023-09-16T12:29:25Z) - Native vs Web Apps: Comparing the Energy Consumption and Performance of
Android Apps and their Web Counterparts [5.18539596100998]
5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。
エネルギー消費、ネットワークトラフィック量、CPU負荷、メモリ負荷、およびネイティブおよびWebバージョンのフレーム時間に基づいて測定する。
論文 参考訳(メタデータ) (2023-08-31T13:51:56Z) - The Web Can Be Your Oyster for Improving Large Language Models [98.72358969495835]
大規模言語モデル(LLM)は、大量の世界の知識を符号化する。
我々はLLMを検索エンジンを用いて大規模ウェブで拡張することを検討する。
ウェブ上に拡張されたLLM UNIWEBを提案する。これは16の知識集約的なタスクに対して、統一されたテキスト・テキスト・フォーマットで訓練される。
論文 参考訳(メタデータ) (2023-05-18T14:20:32Z) - Overload: Latency Attacks on Object Detection for Edge Devices [60.10849291279201]
本稿では,ディープラーニングアプリケーションに対する遅延攻撃について検討する。
誤分類に対する一般的な敵攻撃とは異なり、遅延攻撃の目標は推論時間を増やすことである。
遅延攻撃では、通常の設定に対して1枚の画像の推測時間が10倍長くなることが示される。
論文 参考訳(メタデータ) (2023-04-11T17:24:31Z) - Demand Layering for Real-Time DNN Inference with Minimized Memory Usage [2.5768647103950357]
ディープニューラルネットワーク(DNN)モデルパラメータは、実行前にGPUメモリにロードされる。
本稿では,DNNの層間実行を利用したDemand Layeringを提案する。
私たちの実装では、96.5%のメモリ削減と、平均14.8%の遅延オーバーヘッドが示されています。
論文 参考訳(メタデータ) (2022-10-08T13:38:48Z) - MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。
ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文 参考訳(メタデータ) (2022-05-25T11:08:20Z) - Exploring the Impact of Virtualization on the Usability of the Deep
Learning Applications [1.527276935569975]
本研究では,4種類のディープラーニングアプリケーションのE2E推論時間に及ぼす4つの一般的な実行プラットフォームの影響を計測する。
注目すべき発見は、ソリューションアーキテクトがDLアプリケーションの特性を認識しなければならないことである。
論文 参考訳(メタデータ) (2021-12-17T21:51:34Z) - Accelerating Deep Learning Classification with Error-controlled
Approximate-key Caching [72.50506500576746]
我々は、近似キーキャッシングと名付けた新しいキャッシングパラダイムを提案する。
近似キャッシュはDL推論の負荷を軽減し、システムのスループットを向上するが、近似誤差を導入する。
我々は古典的なLRUと理想的なキャッシュのキャッシュシステム性能を解析的にモデル化し、期待される性能のトレース駆動評価を行い、提案手法の利点を最先端の類似キャッシュと比較した。
論文 参考訳(メタデータ) (2021-12-13T13:49:11Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Parallel Performance-Energy Predictive Modeling of Browsers: Case Study
of Servo [0.9699640804685628]
教師あり学習を用いたWebページプリミティブとWebブラウザの並列性能の関係をモデル化する。
我々は、自動ラベリングアルゴリズムを用いて、様々なレベルのパフォーマンス改善のためのエネルギー使用量のトレードオフを検討する。
クアッドコアのIntel Ivy Bridgeラップトップの実験では、それぞれ94.52%と46.32%のパフォーマンスとエネルギー使用量を改善することができる。
論文 参考訳(メタデータ) (2020-02-06T20:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。