論文の概要: Retina : Low-Power Eye Tracking with Event Camera and Spiking Hardware
- arxiv url: http://arxiv.org/abs/2312.00425v2
- Date: Wed, 17 Apr 2024 06:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 19:20:39.447269
- Title: Retina : Low-Power Eye Tracking with Event Camera and Spiking Hardware
- Title(参考訳): Retina : イベントカメラとスパイクハードウェアを用いた低消費電力アイトラッキング
- Authors: Pietro Bonazzi, Sizhen Bian, Giovanni Lippolis, Yawei Li, Sadique Sheik, Michele Magno,
- Abstract要約: 本稿では、ダイナミック・ビジョン・センサー(DVS)カメラで捉えた純粋な事象データを利用した、視線追跡のためのニューロモルフィック手法を提案する。
このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。
- 参考スコア(独自算出の注目度): 10.702811797536667
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a neuromorphic methodology for eye tracking, harnessing pure event data captured by a Dynamic Vision Sensor (DVS) camera. The framework integrates a directly trained Spiking Neuron Network (SNN) regression model and leverages a state-of-the-art low power edge neuromorphic processor - Speck, collectively aiming to advance the precision and efficiency of eye-tracking systems. First, we introduce a representative event-based eye-tracking dataset, "Ini-30", which was collected with two glass-mounted DVS cameras from thirty volunteers. Then,a SNN model, based on Integrate And Fire (IAF) neurons, named "Retina", is described , featuring only 64k parameters (6.63x fewer than the latest) and achieving pupil tracking error of only 3.24 pixels in a 64x64 DVS input. The continous regression output is obtained by means of convolution using a non-spiking temporal 1D filter slided across the output spiking layer. Finally, we evaluate Retina on the neuromorphic processor, showing an end-to-end power between 2.89-4.8 mW and a latency of 5.57-8.01 mS dependent on the time window. We also benchmark our model against the latest event-based eye-tracking method, "3ET", which was built upon event frames. Results show that Retina achieves superior precision with 1.24px less pupil centroid error and reduced computational complexity with 35 times fewer MAC operations. We hope this work will open avenues for further investigation of close-loop neuromorphic solutions and true event-based training pursuing edge performance.
- Abstract(参考訳): 本稿では、ダイナミック・ビジョン・センサー(DVS)カメラで捉えた純粋な事象データを利用した、視線追跡のためのニューロモルフィック手法を提案する。
このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最新の最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。
まず、30名のボランティアから2台のガラス搭載DVSカメラで収集した、代表的なイベントベースのアイトラッキングデータセット「Ini-30」を紹介した。
次に、Integrate And Fire (IAF) ニューロンをベースとした SNN モデル "Retina" について記述し、64k パラメータ(最新の 6.63 倍)のみを特徴とし、64x64 DVS 入力でわずか 3.24 ピクセルの瞳孔追跡誤差を達成している。
連続回帰出力は、出力スパイキング層にスライドした非スパイキング時間1Dフィルタを用いて畳み込みにより得られる。
最後に、ニューロモルフィックプロセッサ上で網膜を評価し、時間ウィンドウに依存する2.89-4.8 mWと5.57-8.01 mSのレイテンシのエンドツーエンドのパワーを示す。
また、イベントフレーム上に構築された最新のイベントベースのアイトラッキング手法である"3ET"に対して、当社のモデルをベンチマークする。
その結果、網膜は1.24pxの瞳孔偏心誤差を低減し、計算複雑性を35倍のMAC演算で低減できることがわかった。
この研究は、クローズループニューロモルフィックソリューションのさらなる研究と、エッジパフォーマンスを追求する真のイベントベースのトレーニングのための道を開くことを願っている。
関連論文リスト
- Integer-Valued Training and Spike-Driven Inference Spiking Neural Network for High-performance and Energy-efficient Object Detection [15.154553304520164]
スパイキングニューラルネットワーク(SNN)は、ニューラルネットワーク(ANN)に対するバイオプラウと低消費電力のアドバンテージを持つ
本研究では,オブジェクト検出におけるANNとSNNのパフォーマンスギャップを埋めることに焦点を当てる。
我々は,バニラYOLOを単純化し,メタSNNブロックを組み込むことで,この問題を解決するためにSpikeYOLOアーキテクチャを設計する。
論文 参考訳(メタデータ) (2024-07-30T10:04:16Z) - TENNs-PLEIADES: Building Temporal Kernels with Orthogonal Polynomials [1.1970409518725493]
低レイテンシでオンライン分類と検出を行うために、これらのネットワークをイベントベースのデータで相互接続することに重点を置いている。
我々は3つのイベントベースのベンチマークを実験し、メモリと計算コストを大幅に削減した大きなマージンで3つすべてに対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-05-20T17:06:24Z) - Co-designing a Sub-millisecond Latency Event-based Eye Tracking System with Submanifold Sparse CNN [8.613703056677457]
アイトラッキング技術は多くの消費者向けエレクトロニクスアプリケーション、特に仮想現実および拡張現実(VR/AR)において不可欠である
しかし、これらすべての面で最適なパフォーマンスを達成することは、非常に難しい課題である。
我々は,この課題に,システムとイベントカメラを併用したシナジスティックなソフトウェア/ハードウェアの共同設計を通じて対処する。
本システムでは,81%のp5精度,99.5%のp10精度,および3.71のMeanean Distanceを0.7msのレイテンシで実現し,1推論あたり2.29mJしか消費しない。
論文 参考訳(メタデータ) (2024-04-22T15:28:42Z) - Severity classification of ground-glass opacity via 2-D convolutional
neural network and lung CT scans: a 3-day exploration [0.0]
グラウンドグラスの不透明度は、COVID-19や肺炎、肺線維症、結核など、多くの肺疾患の指標である。
本稿では,3日間にわたって実施,テストされた概念実証フレームワークについて,第3の課題である「COVID-19コンペティション」による実験的結果を示す。
課題の要件の一部として、このエクササイズ中に生成されたソースコードはhttps://github.com/lisatwyw/cov19.comに投稿されている。
論文 参考訳(メタデータ) (2023-03-23T22:35:37Z) - Recurrent Vision Transformers for Object Detection with Event Cameras [62.27246562304705]
本稿では,イベントカメラを用いた物体検出のための新しいバックボーンであるリカレントビジョントランス (RVT) を提案する。
RVTは、イベントベースのオブジェクト検出で最先端のパフォーマンスに到達するために、ゼロからトレーニングすることができる。
私たちの研究は、イベントベースのビジョンを超えた研究に役立ち得る効果的なデザイン選択に、新たな洞察をもたらします。
論文 参考訳(メタデータ) (2022-12-11T20:28:59Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - LiteDepth: Digging into Fast and Accurate Depth Estimation on Mobile
Devices [45.84356762066717]
Raspberry Pi 4では,小重量 (1.4MB) と短い推論時間 (27FPS) のエンドツーエンド学習モデルを開発した。
モデル性能を向上させるため,R2 cropと呼ばれる簡易かつ効果的なデータ拡張戦略を提案する。
特に、LiteDepthという名前のソリューションは、MAI&AIM2022 Monocular Depth Estimation Challengeで2位にランクされ、Ssi-RMSEは0.311、RMSEは3.79、推論時間はRaspberry Pi 4で37$ms$テストされている。
論文 参考訳(メタデータ) (2022-09-02T11:38:28Z) - EATFormer: Improving Vision Transformer Inspired by Evolutionary Algorithm [111.17100512647619]
本稿では、実証された実用的な進化的アルゴリズム(EA)と類似したビジョントランスフォーマーの合理性を説明する。
本稿では,EA ベースのトランス (EAT) ブロックのみを含む新しいピラミッド EATFormer バックボーンを提案する。
画像分類,下流タスク,説明実験に関する大規模かつ定量的な実験は,我々のアプローチの有効性と優位性を示すものである。
論文 参考訳(メタデータ) (2022-06-19T04:49:35Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - Tracking Objects as Points [83.9217787335878]
同時に検出と追跡を同時に行うアルゴリズムは,最先端技術よりもシンプルで,高速で,高精度である。
トラッカーであるCenterTrackは、前のフレームから一対のイメージと検出に検出モデルを適用します。
CenterTrackはシンプルで、オンライン(未来を覗くことはない)で、リアルタイムだ。
論文 参考訳(メタデータ) (2020-04-02T17:58:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。