論文の概要: Smartphone-based Eye Tracking System using Edge Intelligence and Model Optimisation
- arxiv url: http://arxiv.org/abs/2408.12463v1
- Date: Thu, 22 Aug 2024 15:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-23 13:22:23.176115
- Title: Smartphone-based Eye Tracking System using Edge Intelligence and Model Optimisation
- Title(参考訳): エッジインテリジェンスとモデル最適化を用いたスマートフォンによるアイトラッキングシステム
- Authors: Nishan Gunawardena, Gough Yumu Lui, Jeewani Anupama Ginige, Bahman Javadi,
- Abstract要約: 我々は、コンボリューショナルニューラルネットワーク(CNN)と2つの異なるリカレントニューラルネットワーク(RNN)を組み合わせることで、ビデオ型視覚のための2つの新しいスマートフォンアイトラッキング技術を開発した。
我々のCNN+LSTMモデルとCNN+GRUモデルは平均根平均角誤差0.955cmと1.091cmを達成した。
スマートフォンの計算制約に対処するため,スマートフォンによるアイトラッキングの性能向上を目的としたエッジインテリジェンスアーキテクチャを開発した。
- 参考スコア(独自算出の注目度): 2.9123921488295768
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A significant limitation of current smartphone-based eye-tracking algorithms is their low accuracy when applied to video-type visual stimuli, as they are typically trained on static images. Also, the increasing demand for real-time interactive applications like games, VR, and AR on smartphones requires overcoming the limitations posed by resource constraints such as limited computational power, battery life, and network bandwidth. Therefore, we developed two new smartphone eye-tracking techniques for video-type visuals by combining Convolutional Neural Networks (CNN) with two different Recurrent Neural Networks (RNN), namely Long Short Term Memory (LSTM) and Gated Recurrent Unit (GRU). Our CNN+LSTM and CNN+GRU models achieved an average Root Mean Square Error of 0.955cm and 1.091cm, respectively. To address the computational constraints of smartphones, we developed an edge intelligence architecture to enhance the performance of smartphone-based eye tracking. We applied various optimisation methods like quantisation and pruning to deep learning models for better energy, CPU, and memory usage on edge devices, focusing on real-time processing. Using model quantisation, the model inference time in the CNN+LSTM and CNN+GRU models was reduced by 21.72% and 19.50%, respectively, on edge devices.
- Abstract(参考訳): 現在のスマートフォンベースのアイトラッキングアルゴリズムの大幅な制限は、ビデオタイプの視覚刺激に適用する際の精度の低下である。
また、スマートフォン上でのゲーム、VR、ARといったリアルタイムインタラクティブアプリケーションに対する需要の増加は、計算能力の制限、バッテリ寿命、ネットワーク帯域幅といったリソース制約によって引き起こされる制限を克服する必要がある。
そこで我々は、コンボリューショナルニューラルネットワーク(CNN)と2つの異なるリカレントニューラルネットワーク(RNN)、すなわちLong Short Term Memory(LSTM)とGated Recurrent Unit(GRU)を組み合わせることで、ビデオ型ビジュアルのための新しい2つのスマートフォンアイトラッキング技術を開発した。
我々のCNN+LSTMモデルとCNN+GRUモデルは平均根平均角誤差0.955cmと1.091cmを達成した。
スマートフォンの計算制約に対処するため,スマートフォンによるアイトラッキングの性能向上を目的としたエッジインテリジェンスアーキテクチャを開発した。
我々は、エッジデバイス上でのエネルギー、CPU、メモリ使用量を改善するために、量子化やプルーニングといった様々な最適化手法をディープラーニングモデルに適用し、リアルタイム処理に焦点を当てた。
モデル量子化を用いて、CNN+LSTMとCNN+GRUのモデル推論時間は、エッジデバイス上でそれぞれ21.72%、19.50%削減された。
関連論文リスト
- Evolution of Convolutional Neural Network (CNN): Compute vs Memory
bandwidth for Edge AI [0.0]
この記事では、Edge AIのコンテキストにおけるCNN計算要求とメモリ帯域幅の関係について検討する。
モデル複雑性が計算要求とメモリアクセスパターンの両方に与える影響について検討する。
この分析は、エッジデバイス上でのCNNパフォーマンス向上において、効率的なアーキテクチャと潜在的なハードウェアアクセラレータの設計に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-09-24T09:11:22Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - EdgeViTs: Competing Light-weight CNNs on Mobile Devices with Vision
Transformers [88.52500757894119]
自己注意に基づく視覚変換器(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)に代わる、非常に競争力のあるアーキテクチャとして登場した。
われわれはEdgeViTsを紹介した。これは新しい軽量ViTのファミリーで、注目に基づく視覚モデルが初めて、最高の軽量CNNと競合することを可能にする。
論文 参考訳(メタデータ) (2022-05-06T18:17:19Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - SmartSplit: Latency-Energy-Memory Optimisation for CNN Splitting on
Smartphone Environment [1.6873748786804317]
We design SmartSplit, a genetic Algorithm with decision analysis based approach to solve the optimization problem。
複数のCNNモデルで実行される実験によると、スマートフォンとクラウドサーバの間でCNNを分割することは実現可能である。
論文 参考訳(メタデータ) (2021-11-01T16:40:37Z) - Smart at what cost? Characterising Mobile Deep Neural Networks in the
wild [16.684419342012674]
本稿では,野生におけるDeep Neural Network (DNN) の使用状況に関する総合的研究を行う。
われわれはGoogle Play Storeで最も人気のあるアプリの16万以上を分析している。
モバイルデプロイメントのコアコスト次元として,モデルのエネルギーフットプリントを測定します。
論文 参考訳(メタデータ) (2021-09-28T18:09:29Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Binary Graph Neural Networks [69.51765073772226]
グラフニューラルネットワーク(gnns)は、不規則データに対する表現学習のための強力で柔軟なフレームワークとして登場した。
本稿では,グラフニューラルネットワークのバイナライゼーションのための異なる戦略を提示し,評価する。
モデルの慎重な設計とトレーニングプロセスの制御によって、バイナリグラフニューラルネットワークは、挑戦的なベンチマークの精度において、適度なコストでトレーニングできることを示しています。
論文 参考訳(メタデータ) (2020-12-31T18:48:58Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。