論文の概要: An Internal Clock Based Space-time Neural Network for Motion Speed
Recognition
- arxiv url: http://arxiv.org/abs/2001.10159v1
- Date: Tue, 28 Jan 2020 04:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-06 02:05:55.245562
- Title: An Internal Clock Based Space-time Neural Network for Motion Speed
Recognition
- Title(参考訳): 動作速度認識のための内部クロック型時空間ニューラルネットワーク
- Authors: Junwen Luo and Jiaoyan Chen
- Abstract要約: 開発したシステムは、スパイクトレインエンコーダ、内部クロック動作を備えたスパイキングニューラルネットワーク(SNN)、パターン変換ブロック、ネットワーク動的依存塑性(NDDP)学習ブロックを備える。
我々は,マンガと実世界のビデオの両方をトレーニングベンチマークとして採用し,本システムでは速度差の大きい動きを認識できないことを示した。
推定精度は83.3%(カルトゥーンビデオ)と75%(実世界のビデオ)である。
- 参考スコア(独自算出の注目度): 16.835822958959557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present a novel internal clock based space-time neural
network for motion speed recognition. The developed system has a spike train
encoder, a Spiking Neural Network (SNN) with internal clocking behaviors, a
pattern transformation block and a Network Dynamic Dependent Plasticity (NDDP)
learning block. The core principle is that the developed SNN will automatically
tune its network pattern frequency (internal clock frequency) to recognize
human motions in a speed domain. We employed both cartoons and real-world
videos as training benchmarks, results demonstrate that our system can not only
recognize motions with considerable speed differences (e.g. run, walk, jump,
wonder(think) and standstill), but also motions with subtle speed gaps such as
run and fast walk. The inference accuracy can be up to 83.3% (cartoon videos)
and 75% (real-world videos). Meanwhile, the system only requires six video
datasets in the learning stage and with up to 42 training trials. Hardware
performance estimation indicates that the training time is 0.84-4.35s and power
consumption is 33.26-201mW (based on an ARM Cortex M4 processor). Therefore,
our system takes unique learning advantages of the requirement of the small
dataset, quick learning and low power performance, which shows great potentials
for edge or scalable AI-based applications.
- Abstract(参考訳): 本稿では,動き速度認識のための内部クロック型時空間ニューラルネットワークを提案する。
開発したシステムは、スパイクトレインエンコーダ、内部クロック動作を備えたスパイキングニューラルネットワーク(SNN)、パターン変換ブロック、ネットワーク動的依存塑性(NDDP)学習ブロックを備える。
基本原理は、開発したSNNがそのネットワークパターン周波数(内部クロック周波数)を自動的に調整して、速度領域における人間の動きを認識することである。
実世界の動画と漫画の両方をトレーニングのベンチマークとして使ってみた結果、我々のシステムは相当な速度差(ランニング、ウォーク、ジャンプ、ワンダー(ワンダー)、スタンススティルなど)を持つ動きを認識できるだけでなく、ランニングや高速歩行といった微妙なスピードギャップを持つ動きも認識できることがわかりました。
推定精度は83.3%(cartoon video)と75%(real-world videos)である。
一方、このシステムは学習段階では6つのビデオデータセットと最大42のトレーニングトライアルしか必要としない。
ハードウェアの性能評価では、トレーニング時間は0.84-4.35s、消費電力は33.26-201mWである(ARM Cortex M4プロセッサに基づく)。
そこで,本システムは,小規模なデータセット,高速学習,低消費電力性能といった,エッジやスケーラブルなAIベースのアプリケーションに対する大きな可能性を示すユニークな学習の利点を生かしている。
関連論文リスト
- Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - FPGA-optimized Hardware acceleration for Spiking Neural Networks [69.49429223251178]
本研究は,画像認識タスクに適用したオフライントレーニングによるSNN用ハードウェアアクセラレータの開発について述べる。
この設計はXilinx Artix-7 FPGAをターゲットにしており、利用可能なハードウェアリソースの40%を合計で使用している。
分類時間を3桁に短縮し、ソフトウェアと比較すると精度にわずか4.5%の影響を与えている。
論文 参考訳(メタデータ) (2022-01-18T13:59:22Z) - TSM: Temporal Shift Module for Efficient and Scalable Video
Understanding on Edge Device [58.776352999540435]
本稿では,高能率かつ高能率な時間シフトモジュール(TSM)を提案する。
TSMは2次元CNNに挿入され、ゼロ計算とゼロパラメータでの時間的モデリングを実現する。
Jetson NanoとGalaxy Note8のオンラインビデオ認識では、74fpsと29fpsのハイフレームレートを実現している。
論文 参考訳(メタデータ) (2021-09-27T17:59:39Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Is Space-Time Attention All You Need for Video Understanding? [50.78676438502343]
空間と時間の自己意識にのみ焦点をあてた畳み込みのないアプローチを提案する。
TimeSformer"は、フレームレベルのパッチのシーケンスから特徴学習を可能にすることで、標準のTransformerアーキテクチャをビデオに適応させる。
TimeSformerは、いくつかの主要なアクション認識ベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2021-02-09T19:49:33Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。