論文の概要: Sign Language Recognition using Parallel Bidirectional Reservoir Computing
- arxiv url: http://arxiv.org/abs/2512.19451v1
- Date: Mon, 22 Dec 2025 14:55:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.795139
- Title: Sign Language Recognition using Parallel Bidirectional Reservoir Computing
- Title(参考訳): 並列双方向貯留層計算を用いた手話認識
- Authors: Nitin Kumar Singh, Arie Rachmad Syulistyo, Yuichiro Tanaka, Hakaru Tamukoh,
- Abstract要約: 本稿では,並列双方向貯水池計算(PBRC)とMediaPipeを組み合わせた手話認識システムを提案する。
MediaPipeは、PBRCアーキテクチャの入力機能として機能するハンドジョイント座標のリアルタイムハンドトラッキングと正確な抽出を可能にする。
我々は、Word-Level American Sign Language (WLASL)ビデオデータセットを用いてPBRCベースのSLRシステムをトレーニングし、それぞれ60.85%、85.86%、91.74%のトップ1、トップ5、トップ10のアキュラシーを達成した。
- 参考スコア(独自算出の注目度): 0.2099922236065961
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language recognition (SLR) facilitates communication between deaf and hearing communities. Deep learning based SLR models are commonly used but require extensive computational resources, making them unsuitable for deployment on edge devices. To address these limitations, we propose a lightweight SLR system that combines parallel bidirectional reservoir computing (PBRC) with MediaPipe. MediaPipe enables real-time hand tracking and precise extraction of hand joint coordinates, which serve as input features for the PBRC architecture. The proposed PBRC architecture consists of two echo state network (ESN) based bidirectional reservoir computing (BRC) modules arranged in parallel to capture temporal dependencies, thereby creating a rich feature representation for classification. We trained our PBRC-based SLR system on the Word-Level American Sign Language (WLASL) video dataset, achieving top-1, top-5, and top-10 accuracies of 60.85%, 85.86%, and 91.74%, respectively. Training time was significantly reduced to 18.67 seconds due to the intrinsic properties of reservoir computing, compared to over 55 minutes for deep learning based methods such as Bi-GRU. This approach offers a lightweight, cost-effective solution for real-time SLR on edge devices.
- Abstract(参考訳): 手話認識(SLR)は聴覚と聴覚のコミュニケーションを促進する。
ディープラーニングベースのSLRモデルは一般的に使用されるが、広範な計算資源を必要とするため、エッジデバイスへのデプロイには適さない。
これらの制約に対処するために,PBRCとMediaPipeを組み合わせた軽量SLRシステムを提案する。
MediaPipeは、PBRCアーキテクチャの入力機能として機能するハンドジョイント座標のリアルタイムハンドトラッキングと正確な抽出を可能にする。
提案したPBRCアーキテクチャは、2つのエコー状態ネットワーク(ESN)ベースの双方向貯水池計算(BRC)モジュールを並列に配置し、時間的依存関係を捕捉し、分類のためのリッチな特徴表現を生成する。
我々は、Word-Level American Sign Language (WLASL)ビデオデータセットを用いてPBRCベースのSLRシステムをトレーニングし、それぞれ60.85%、85.86%、91.74%のトップ1、トップ5、トップ10のアキュラシーを達成した。
訓練時間は貯水池計算の本質的な性質により18.67秒に短縮され、Bi-GRUのような深層学習法では55分以上短縮された。
このアプローチは、エッジデバイス上のリアルタイムSLRに対して、軽量で費用効率のよいソリューションを提供する。
関連論文リスト
- Sign Language Recognition using Bidirectional Reservoir Computing [0.2099922236065961]
本稿では,MediaPipeとESNに基づく双方向貯水池アーキテクチャを用いた効率的な手話認識システムを提案する。
MediaPipeは手関節座標を抽出し、ESNベースのBRCアーキテクチャの入力として機能する。
BRCはこれらの機能を前方と後方の両方で処理し、時間的依存関係を効率的にキャプチャする。
論文 参考訳(メタデータ) (2025-11-30T08:25:27Z) - Semi-distributed Cross-modal Air-Ground Relative Localization [11.828259485114598]
ロボット相対的ローカライゼーションの現在のアプローチは、分散マルチロボットSLAMシステムという形で主に実現されている。
我々は、複数のセンサーを統合するために、無人地上車両(UGV)の容量を十分に活用する。
この研究において、UGVと無人航空機(UAV)は独立してSLAMを行い、深層学習に基づくキーポイントとグローバルディスクリプタを抽出した。
論文 参考訳(メタデータ) (2025-11-10T06:28:31Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Reservoir Based Edge Training on RF Data To Deliver Intelligent and
Efficient IoT Spectrum Sensors [0.6451914896767135]
本稿では,コンパクトなモバイルデバイス上での汎用機械学習アルゴリズムをサポートする処理アーキテクチャを提案する。
Deep Delay Loop Reservoir Computing (DLR)は、Stand-of-the-Art (SoA)と比較して、フォームファクタ、ハードウェアの複雑さ、レイテンシを低減します。
状態ベクトルを線形に結合した複数の小さなループからなるDLRアーキテクチャを、リッジ回帰に対する低次元入力を生成する。
論文 参考訳(メタデータ) (2021-04-01T20:08:01Z) - Reservoir-Based Distributed Machine Learning for Edge Operation [0.6451914896767135]
スマートセンサを組み込んだ機械学習アルゴリズムの現場学習のための新しい設計を紹介します。
無線周波数(RF)スペクトルセンサを用いた分散トレーニングシナリオについて述べる。
論文 参考訳(メタデータ) (2021-04-01T20:06:40Z) - Multi-scale Interaction for Real-time LiDAR Data Segmentation on an
Embedded Platform [62.91011959772665]
LiDARデータのリアルタイムセマンティックセグメンテーションは、自動運転車にとって不可欠である。
ポイントクラウド上で直接動作する現在のアプローチでは、複雑な空間集約操作を使用する。
本稿では,マルチスケールインタラクションネットワーク(MINet)と呼ばれるプロジェクションベースの手法を提案する。
論文 参考訳(メタデータ) (2020-08-20T19:06:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。