論文の概要: Neuromorphic visual attention for Sign-language recognition on SpiNNaker
- arxiv url: http://arxiv.org/abs/2605.06005v1
- Date: Thu, 07 May 2026 10:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.708833
- Title: Neuromorphic visual attention for Sign-language recognition on SpiNNaker
- Title(参考訳): SpiNNakerにおける手話認識のためのニューロモルフィック視覚的注意
- Authors: Sarka Liskova, Olha Vedmedenko, Mazdak Fatahi, Matej Hoffmann, P. Michael Furlong, Giulia D Angelo,
- Abstract要約: 本稿では,アメリカ手話指先認識のためのエンドツーエンドのニューロモルフィックアーキテクチャを提案する。
システムは、オンラインの関心領域抽出のためのスパイク視覚的注意機構と、SpinNNakerニューロモルフィックプラットフォーム上に展開されるコンパクトなスパイクニューラルネットワークを統合する。
- 参考スコア(独自算出の注目度): 2.3591129884653186
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign-language recognition has achieved substantial gains in classification accuracy in recent years; however, the latency and power requirements of most existing methods limit their suitability for real-time deployment. Neuromorphic sensing and processing offer an alternative paradigm based on sparse, event-driven computation that supports low-latency and energy-efficient perception. In this work, we introduce an end-to-end neuromorphic architecture for American Sign Language (ASL) fingerspelling recognition that integrates a spiking visual attention mechanism for online region-of-interest extraction with a compact spiking neural network deployed on the SpiNNaker neuromorphic platform. We benchmark the proposed system against two datasets: a synthetically generated event-based version of the Sign Language MNIST dataset and a natively recorded ASL-DVS dataset, whilst providing a comprehensive overview of Sign-language recognition and related work. This work yields competitive performance in simulation (92.27%) and comparable performance on neuromorphic hardware deployment (83.1%), while achieving the most energy-efficient architecture (0.565 mW) and low latency (3 ms) across all benchmarked approaches. Despite its compact design, the system demonstrates the suitability of task-dependent visual attention applications for edge deployment.
- Abstract(参考訳): 近年、手話認識は分類精度を大幅に向上させたが、既存のほとんどのメソッドのレイテンシと電力要求は、リアルタイムデプロイメントに適したものに制限されている。
ニューロモルフィックセンシングと処理は、低レイテンシとエネルギー効率の知覚をサポートするスパースなイベント駆動計算に基づく代替パラダイムを提供する。
本稿では,SpiNNakerのニューロモーフィックプラットフォーム上に展開される小型のスパイクニューラルネットワークと,オンライン領域間抽出のためのスパイク視覚的注意機構を統合した,ASL(American Sign Language)指先認識のためのエンドツーエンドのニューロモーフィックアーキテクチャを提案する。
提案システムは,手話MNISTデータセットの合成生成イベントベースバージョンとネイティブに記録されたASL-DVSデータセットの2つのデータセットに対してベンチマークを行い,手話認識と関連作業の概要を概説した。
この研究は、シミュレーション(92.27%)とニューロモルフィックハードウェアの展開(83.1%)に匹敵する性能を得る一方で、最もエネルギー効率の良いアーキテクチャ(0.565 mW)と低レイテンシ(3 ms)を全てのベンチマークアプローチで達成する。
コンパクトな設計にもかかわらず、エッジデプロイメントのためのタスク依存型視覚的アテンションアプリケーションの適合性を示す。
関連論文リスト
- PTS-SNN: A Prompt-Tuned Temporal Shift Spiking Neural Networks for Efficient Speech Emotion Recognition [12.087823767638788]
音声感情認識(SER)は人間とコンピュータのインタラクションに広く利用されているが、高い計算コストはリソースに制約のあるエッジデバイスの実装を妨げる。
本稿では, スパイキングダイナミクスを用いたパラメータ効率のよいニューロモルフィック適応である, Prompt-Tuned Spiking Neural Networks (PTS-SNN) を提案する。
論文 参考訳(メタデータ) (2026-02-09T03:29:16Z) - Arabic Sign Language Recognition using Multimodal Approach [0.0]
アラビア手話(ArSL)は、聴覚障害者コミュニティにおける個人にとって不可欠なコミュニケーション方法である。
既存の認識システムは、Leap MotionやRGBカメラのような単一センサーアプローチに依存しているため、重大な課題に直面している。
本稿では,Leap Motion と RGB カメラデータを組み合わせて ArSL 認識の可能性を検討するマルチモーダルアプローチの可能性を検討することを目的とする。
論文 参考訳(メタデータ) (2026-01-20T09:21:43Z) - Spatiotemporal Graph Learning with Direct Volumetric Information Passing and Feature Enhancement [62.91536661584656]
本稿では,CeFeGNN(CeFeGNN)とCell-embeddedとFeature-enhanced Graph Neural Networkを学習用として提案する。
学習可能なセル属性を共通ノードエッジメッセージパッシングプロセスに埋め込むことで,地域特性の空間依存性をよりよく把握する。
各種PDEシステムと1つの実世界のデータセットを用いた実験により、CeFeGNNは他のベースラインと比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-09-26T16:22:08Z) - Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - TokenUnify: Scaling Up Autoregressive Pretraining for Neuron Segmentation [65.65530016765615]
本稿では,3つの相補的な学習目標を通じて,大規模依存関係をキャプチャする階層型予測コーディングフレームワークを提案する。
TokenUnifyは、ランダムトークン予測、次のトークン予測、およびすべてのトークン予測を統合して、包括的な表現空間を作成する。
また,120億個の注釈付きボクセルを付加した大規模EMデータセットを導入し,空間連続性を持つ理想的な長周期視覚データを提供する。
論文 参考訳(メタデータ) (2024-05-27T05:45:51Z) - Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。
学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。
In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文 参考訳(メタデータ) (2023-10-17T01:05:28Z) - SpikeCLIP: A Contrastive Language-Image Pretrained Spiking Neural Network [39.54624592783459]
従来のニューラルネットワーク(ANN)の代替として、スパイキングニューラルネットワーク(SNN)が登場した。
本稿ではスパイクベースの計算におけるモダリティギャップを埋める新しいフレームワークであるSpikeCLIPを提案する。
論文 参考訳(メタデータ) (2023-10-10T09:57:17Z) - TOPIQ: A Top-down Approach from Semantics to Distortions for Image
Quality Assessment [53.72721476803585]
画像品質評価(IQA)は、ディープニューラルネットワークによる顕著な進歩を目の当たりにしたコンピュータビジョンの基本課題である。
本稿では,高レベルの意味論を用いてIQAネットワークを誘導し,意味的に重要な局所歪み領域に注目するトップダウンアプローチを提案する。
提案手法の重要な要素は,低レベル特徴に対するアテンションマップを算出した,クロススケールアテンション機構である。
論文 参考訳(メタデータ) (2023-08-06T09:08:37Z) - ETLP: Event-based Three-factor Local Plasticity for online learning with
neuromorphic hardware [105.54048699217668]
イベントベース3要素局所塑性(ETLP)の計算複雑性に明らかな優位性を有する精度の競争性能を示す。
また, 局所的可塑性を用いた場合, スパイキングニューロンの閾値適応, 繰り返しトポロジーは, 時間的構造が豊富な時間的パターンを学習するために必要であることを示した。
論文 参考訳(メタデータ) (2023-01-19T19:45:42Z) - Sign Language Recognition via Skeleton-Aware Multi-Model Ensemble [71.97020373520922]
手話は一般的に、聴覚障害者やミュート人がコミュニケーションするために使われる。
孤立手話認識(SLR)のためのGlobal Ensemble Model(GEM)を用いた新しいマルチモーダルフレームワークを提案する。
提案するSAM-SLR-v2 フレームワークは極めて有効であり,最先端の性能を高いマージンで達成している。
論文 参考訳(メタデータ) (2021-10-12T16:57:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。