論文の概要: A Low-Power Neuromorphic Approach for Efficient Eye-Tracking
- arxiv url: http://arxiv.org/abs/2312.00425v1
- Date: Fri, 1 Dec 2023 08:47:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:20:18.091616
- Title: A Low-Power Neuromorphic Approach for Efficient Eye-Tracking
- Title(参考訳): 低出力ニューロモルフィックアプローチによる効率的な眼球追跡
- Authors: Pietro Bonazzi, Sizhen Bian, Giovanni Lippolis, Yawei Li, Sadique
Sheik, Michele Magno
- Abstract要約: 本稿では、ダイナミック・ビジョン・センサー(DVS)カメラで捉えた純粋な事象データを利用した、視線追跡のためのニューロモルフィック手法を提案する。
このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。
- 参考スコア(独自算出の注目度): 11.340868713282237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces a neuromorphic methodology for eye tracking, harnessing
pure event data captured by a Dynamic Vision Sensor (DVS) camera. The framework
integrates a directly trained Spiking Neuron Network (SNN) regression model and
leverages a state-of-the-art low power edge neuromorphic processor - Speck,
collectively aiming to advance the precision and efficiency of eye-tracking
systems. First, we introduce a representative event-based eye-tracking dataset,
"Ini-30", which was collected with two glass-mounted DVS cameras from thirty
volunteers. Then,a SNN model, based on Integrate And Fire (IAF) neurons, named
"Retina", is described , featuring only 64k parameters (6.63x fewer than the
latest) and achieving pupil tracking error of only 3.24 pixels in a 64x64 DVS
input. The continous regression output is obtained by means of convolution
using a non-spiking temporal 1D filter slided across the output spiking layer.
Finally, we evaluate Retina on the neuromorphic processor, showing an
end-to-end power between 2.89-4.8 mW and a latency of 5.57-8.01 mS dependent on
the time window. We also benchmark our model against the latest event-based
eye-tracking method, "3ET", which was built upon event frames. Results show
that Retina achieves superior precision with 1.24px less pupil centroid error
and reduced computational complexity with 35 times fewer MAC operations. We
hope this work will open avenues for further investigation of close-loop
neuromorphic solutions and true event-based training pursuing edge performance.
- Abstract(参考訳): 本稿では,ダイナミックビジョンセンサ(dvs)カメラが捉えた純粋なイベントデータを用いて,視線追跡のためのニューロモルフィックな手法を提案する。
このフレームワークは、直接訓練されたスパイキングニューロンネットワーク(SNN)回帰モデルを統合し、最新の最先端の低消費電力エッジニューロモルフィックプロセッサであるSpeckを活用する。
まず,30名のボランティアから2台のガラス製dvsカメラで収集したイベントベースのアイトラッキングデータセット「ini-30」を紹介する。
次に、Integrate And Fire (IAF) ニューロンをベースとした SNN モデル "Retina" について記述し、64k パラメータ(最新の 6.63 倍)のみを特徴とし、64x64 DVS 入力でわずか 3.24 ピクセルの瞳孔追跡誤差を達成している。
この連続回帰出力は、出力スパイク層を横切る非スパイク時間1dフィルタを用いて畳み込みによって得られる。
最後に、ニューロモルフィックプロセッサ上で網膜を評価し、時間ウィンドウに依存する2.89-4.8 mWと5.57-8.01 mSのレイテンシのエンドツーエンドのパワーを示す。
また,イベントフレーム上に構築した最新のイベントベースのアイトラッキング手法である"3et"に対するベンチマークも行った。
その結果、retinaは1.24pxの瞳孔の誤差を減らし、計算の複雑さを35倍のmac操作で減らした。
この研究は、クローズループニューロモルフィックソリューションのさらなる研究と、エッジパフォーマンスを追求する真のイベントベースのトレーニングのための道を開くことを願っている。
関連論文リスト
- Investigating Weight-Perturbed Deep Neural Networks With Application in
Iris Presentation Attack Detection [11.209470024746683]
重みとバイアスパラメータに対する摂動に対するディープニューラルネットワークの感度を評価する。
トレーニングを行なわずに、ネットワークのパラメータを摂動させることで、改良されたモデルを提案する。
パラメータレベルのアンサンブルは、LivDet-Iris-2017データセットで43.58%、LivDet-Iris-2020データセットで9.25%の平均的な改善を示している。
論文 参考訳(メタデータ) (2023-11-21T18:18:50Z) - Video and Synthetic MRI Pre-training of 3D Vision Architectures for
Neuroimage Analysis [3.208731414009847]
トランスファーラーニングは、特定のタスクに適応するために、大規模なデータコーパスでディープラーニングモデルを事前訓練することを含む。
視覚変換器 (ViTs) と畳み込みニューラルネットワーク (CNNs) のベンチマークを行った。
得られた事前訓練されたモデルは、ターゲットタスクのトレーニングデータが制限されている場合でも、さまざまな下流タスクに適応することができる。
論文 参考訳(メタデータ) (2023-09-09T00:33:23Z) - Severity classification of ground-glass opacity via 2-D convolutional
neural network and lung CT scans: a 3-day exploration [0.0]
グラウンドグラスの不透明度は、COVID-19や肺炎、肺線維症、結核など、多くの肺疾患の指標である。
本稿では,3日間にわたって実施,テストされた概念実証フレームワークについて,第3の課題である「COVID-19コンペティション」による実験的結果を示す。
課題の要件の一部として、このエクササイズ中に生成されたソースコードはhttps://github.com/lisatwyw/cov19.comに投稿されている。
論文 参考訳(メタデータ) (2023-03-23T22:35:37Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - Pushing the Limits of Asynchronous Graph-based Object Detection with
Event Cameras [62.70541164894224]
低計算を維持しながら、そのようなモデルの深さと複雑さを拡大できるアーキテクチャ選択をいくつか導入する。
我々の手法は、密度の高いグラフニューラルネットワークよりも3.7倍高速に動作し、前方通過はわずか8.4msである。
論文 参考訳(メタデータ) (2022-11-22T15:14:20Z) - Accelerating Training and Inference of Graph Neural Networks with Fast
Sampling and Pipelining [58.10436813430554]
グラフニューラルネットワーク(GNN)のミニバッチトレーニングには、多くの計算とデータ移動が必要である。
我々は,分散マルチGPU環境において,近傍サンプリングを用いたミニバッチトレーニングを行うことを支持する。
本稿では,これらのボトルネックを緩和する一連の改良点について述べる。
また,サンプリングによる推論を支援する実験分析を行い,試験精度が実質的に損なわれていないことを示す。
論文 参考訳(メタデータ) (2021-10-16T02:41:35Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - Fast Motion Understanding with Spatiotemporal Neural Networks and
Dynamic Vision Sensors [99.94079901071163]
本稿では,高速な動きを推論するための動的視覚センサ(DVS)システムを提案する。
ロボットが15m/s以上の速度で接近する小さな物体に反応するケースを考察する。
我々は,23.4m/sで24.73degの誤差を$theta$,18.4mmの平均離散半径予測誤差,衝突予測誤差に対する25.03%の中央値で移動した玩具ダートについて,本システムの結果を強調した。
論文 参考訳(メタデータ) (2020-11-18T17:55:07Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance
Disparity Estimation [51.17232267143098]
ステレオ画像から3次元物体を検出するための新しいシステムDisp R-CNNを提案する。
我々は、LiDAR点雲を必要とせずに、統計的形状モデルを用いて、密度の異なる擬似地下構造を生成する。
KITTIデータセットの実験によると、LiDARの基盤構造がトレーニング時に利用できない場合でも、Disp R-CNNは競争性能を達成し、平均精度で従来の最先端手法を20%上回っている。
論文 参考訳(メタデータ) (2020-04-07T17:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。