Fugu-MT 論文翻訳(概要): Exploring the Impact of In-Browser Deep Learning Inference on Quality of User Experience and Performance

論文の概要: Exploring the Impact of In-Browser Deep Learning Inference on Quality of User Experience and Performance

arxiv url: http://arxiv.org/abs/2402.05981v1
Date: Thu, 8 Feb 2024 08:02:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 19:06:25.992672
Title: Exploring the Impact of In-Browser Deep Learning Inference on Quality of User Experience and Performance
Title（参考訳）: ブラウザ内ディープラーニング推論がユーザエクスペリエンスとパフォーマンスの質に及ぼす影響を探る
Authors: Qipeng Wang, Shiqi Jiang, Zhenpeng Chen, Xu Cao, Yuanchun Li, Aoyu Li, Ying Zhang, Yun Ma, Ting Cao, Xuanzhe Liu
Abstract要約: ディープラーニング(DL)は、"ブラウザ内推論"と呼ばれる方法を通じて、Webアプリケーションに統合されつつある。調査では、広く使われている9つのDLモデルを比較し、50のPC Webブラウザでテストした。ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。
参考スコア（独自算出の注目度）: 20.612307023903593
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Deep Learning (DL) is increasingly being integrated into Web applications through a method known as "in-browser inference", where the DL processes occur directly within Web browsers. However, the actual performance of this method and its effect on user experience quality (QoE) is not well-understood. This gap in knowledge necessitates new forms of QoE measurement, going beyond traditional metrics such as page load time. To address this, we conducted the first extensive performance evaluation of in-browser inference. We introduced new metrics for this purpose: responsiveness, smoothness, and inference accuracy. Our thorough study included 9 widely-used DL models and tested them across 50 popular PC Web browsers. The findings show a significant latency issue with in-browser inference: it's on average 16.9 times slower on CPU and 4.9 times slower on GPU than native inference methods. Several factors contribute to this latency, including underused hardware instruction sets, inherent delays in the runtime environment, resource competition within the browser, and inefficiencies in software libraries and GPU abstractions. Moreover, in-browser inference demands a lot of memory, sometimes up to 334.6 times more than the size of the DL models themselves. This excessive memory usage is partly due to suboptimal memory management. Additionally, we noticed that in-browser inference increases the time it takes for graphical user interface (GUI) components to load in web browsers by a significant 67.2\%, which severely impacts the overall QoE for users of web applications that depend on this technology.
Abstract（参考訳）: ディープラーニング(DL)は"ブラウザ内推論(in-browser inference)"と呼ばれるメソッドを通じてWebアプリケーションに統合され、DLプロセスはWebブラウザ内で直接実行される。しかし,本手法の実際の性能とユーザエクスペリエンス品質(QoE)への影響はよく理解されていない。この知識のギャップは、ページの読み込み時間のような従来のメトリクスを超えて、QoE測定の新しい形式を必要とする。そこで本研究では,ブラウザ内推論の性能評価を行った。この目的のために、応答性、滑らか性、推論精度という新しい指標を導入しました。私たちの徹底的な研究は、広く使われている9つのDLモデルを含み、50のPC Webブラウザでそれらをテストしました。ブラウザ内での推論は、CPUでは平均16.9倍、GPUでは4.9倍遅い。未使用のハードウェア命令セット、実行環境固有の遅延、ブラウザ内のリソース競合、ソフトウェアライブラリやGPU抽象化の非効率など、いくつかの要因がこのレイテンシに寄与する。さらに、ブラウザ内の推論には大量のメモリが必要であり、時にはDLモデル自体の最大334.6倍のメモリを必要とする。この過剰なメモリ使用は、部分的に最適化されたメモリ管理によるものである。さらに、ブラウザ内推論は、グラフィカルユーザインタフェース(GUI)コンポーネントがWebブラウザにロードするのに要する時間を67.2\%増加させ、この技術に依存しているWebアプリケーションのユーザに対する全体的なQoEに重大な影響を及ぼすことに気づきました。

関連論文リスト

WebANNS: Fast and Efficient Approximate Nearest Neighbor Search in Web Browsers [4.817548755757474]
ブラウザ内の近接探索(ANNS)は、現代のAIインフラにとって不可欠である。本稿では,Webブラウザ向けに設計された新しいANNSエンジンであるWebANNSを提案する。
論文参考訳（メタデータ） (2025-07-01T07:37:18Z)
Mixture of Lookup Experts [63.787712153454464]
Mixture-of-Experts (MoE)は、推論中に専門家のサブセットだけを起動する。 MoLEは通信とVRAMの両方で効率的な新しいMoEアーキテクチャである。
論文参考訳（メタデータ） (2025-03-20T02:31:57Z)
WebLLM: A High-Performance In-Browser LLM Inference Engine [9.771248136952039]
WebLLMはオープンソースのフレームワークで、Webブラウザで高性能なLLM推論を可能にする。 WebLLMは、Webアプリケーションにシームレスに統合するためのOpenAIスタイルのAPIを提供する。 WebLLMは、同じデバイス上で80%のネイティブパフォーマンスを維持することができる。
論文参考訳（メタデータ） (2024-12-20T11:24:13Z)
DAOP: Data-Aware Offloading and Predictive Pre-Calculation for Efficient MoE Inference [14.676716521856813]
Mixture-of-Experts (MoE)モデルは、メモリ制限されたデバイスにおいて、重大なデプロイメント上の課題に直面している。並列GPU-CPU実行を最適化するデバイス上でのMoE推論エンジンである presentP を提案する。 Pは従来のエキスパートキャッシングとプリフェッチの手法を最大8.20倍、オフロード技術は1.35倍、精度は維持する。
論文参考訳（メタデータ） (2024-12-16T07:59:21Z)
Benchmarking Edge AI Platforms for High-Performance ML Inference [0.0]
エッジコンピューティングは、通信遅延を減らし、リアルタイム処理を可能にする能力から、高性能で異質なSystem-on-Chipソリューションの興隆を促進している。現在のアプローチでは、現代的なハードウェアをスケールダウンすることが多いが、ニューラルネットワークワークロードのパフォーマンス特性は、大きく異なる場合がある。我々は、CPUのみ、CPU/GPU、CPU/NPU統合ソリューション間で、様々な線形代数およびニューラルネットワーク推論タスクのレイテンシとスループットを比較した。
論文参考訳（メタデータ） (2024-09-23T08:27:27Z)
An Efficient and Streaming Audio Visual Active Speaker Detection System [2.4515389321702132]
リアルタイム制約によって引き起こされる重要な課題に対処するシナリオを2つ提示する。まず,ASDモデルを用いた将来のコンテキストフレーム数を制限する手法を提案する。第二に、モデルが推論時にアクセス可能な過去のフレームの総数を制限する、より厳密な制約を提案する。
論文参考訳（メタデータ） (2024-09-13T17:45:53Z)
vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文参考訳（メタデータ） (2024-07-22T14:37:58Z)
Green AI: A Preliminary Empirical Study on Energy Consumption in DL Models Across Different Runtime Infrastructures [56.200335252600354]
トレーニング済みのモデルを、ネイティブな開発環境とは異なる環境にデプロイするのは、一般的なプラクティスです。これにより、インフラを含むONNXや標準フォーマットとして機能するONNXなどの交換フォーマットが導入された。
論文参考訳（メタデータ） (2024-02-21T09:18:44Z)
Empowering In-Browser Deep Learning Inference on Edge Devices with Just-in-Time Kernel Optimizations [30.477092899633785]
本稿では,先駆的なブラウザ推論システム nnJIT について述べる。 nnJITは、エッジデバイス向けに最適化されたコンピューティングカーネルのジャスト・イン・タイム(JIT)自動生成を可能にする。その結果、nJITは既存のベースラインと比較して30秒で最大8.2倍高速に達成できることがわかった。
論文参考訳（メタデータ） (2023-09-16T12:29:25Z)
Native vs Web Apps: Comparing the Energy Consumption and Performance of Android Apps and their Web Counterparts [5.18539596100998]
5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。エネルギー消費、ネットワークトラフィック量、CPU負荷、メモリ負荷、およびネイティブおよびWebバージョンのフレーム時間に基づいて測定する。
論文参考訳（メタデータ） (2023-08-31T13:51:56Z)
FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文参考訳（メタデータ） (2023-06-08T13:11:20Z)
MAPLE-X: Latency Prediction with Explicit Microprocessor Prior Knowledge [87.41163540910854]
ディープニューラルネットワーク(DNN)レイテンシのキャラクタリゼーションは、時間を要するプロセスである。ハードウェアデバイスの事前知識とDNNアーキテクチャのレイテンシを具体化し,MAPLEを拡張したMAPLE-Xを提案する。
論文参考訳（メタデータ） (2022-05-25T11:08:20Z)
MAPLE-Edge: A Runtime Latency Predictor for Edge Devices [80.01591186546793]
汎用ハードウェアの最先端遅延予測器であるMAPLEのエッジデバイス指向拡張であるMAPLE-Edgeを提案する。 MAPLEと比較して、MAPLE-Edgeはより小さなCPUパフォーマンスカウンタを使用して、ランタイムとターゲットデバイスプラットフォームを記述することができる。また、共通ランタイムを共有するデバイスプール上でトレーニングを行うMAPLEとは異なり、MAPLE-Edgeは実行時に効果的に一般化できることを示す。
論文参考訳（メタデータ） (2022-04-27T14:00:48Z)
Accelerating Deep Learning Inference via Learned Caches [11.617579969991294]
ディープニューラルネットワーク(DNN)は、現実世界の問題を解決する精度が高いため、複数のドメインで採用が増加しています。現在の低レイテンシソリューションは、精度のトレードオフや、ワークロードの予測に固有の時間的局所性を利用することができない。低遅延推論のための学習キャッシュを組み込んだエンドツーエンド予測サービングシステムGATIの設計について述べる。
論文参考訳（メタデータ） (2021-01-18T22:13:08Z)
Towards Real-Time DNN Inference on Mobile Platforms with Model Pruning and Compiler Optimization [56.3111706960878]
ハイエンドなモバイルプラットフォームは、幅広いDeep Neural Network (DNN)アプリケーションのための主要なコンピューティングデバイスとして機能する。これらのデバイス上の制約付き計算とストレージリソースは、リアルタイムの推論実行に重大な課題をもたらす。モバイル端末上でのDNN実行を高速化するハードウェアフレンドリーな構造化モデルプルーニングとコンパイラ最適化手法を提案する。
論文参考訳（メタデータ） (2020-04-22T03:18:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。