論文の概要: ViT-HGR: Vision Transformer-based Hand Gesture Recognition from High
Density Surface EMG Signals
- arxiv url: http://arxiv.org/abs/2201.10060v1
- Date: Tue, 25 Jan 2022 02:42:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-27 07:01:09.190140
- Title: ViT-HGR: Vision Transformer-based Hand Gesture Recognition from High
Density Surface EMG Signals
- Title(参考訳): ViT-HGR:高密度表面EMG信号を用いた視覚変換器による手指ジェスチャー認識
- Authors: Mansooreh Montazerin, Soheil Zabihi, Elahe Rahimian, Arash Mohammadi,
Farnoosh Naderkhani
- Abstract要約: 本研究では,高密度(HD-sEMG)信号から手動ジェスチャー認識を行う視覚変換器(ViT)アーキテクチャについて検討・設計する。
提案したViT-HGRフレームワークは,トレーニング時間の問題を克服し,多数の手の動きをスクラッチから正確に分類することができる。
64サンプル (31.25 ms) の窓サイズ実験では, 平均テスト精度は84.62 +/-3.07%であり, 78, 210個のパラメータしか利用していない。
- 参考スコア(独自算出の注目度): 14.419091034872682
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a surge of significant interest on application of
Deep Learning (DL) models to autonomously perform hand gesture recognition
using surface Electromyogram (sEMG) signals. DL models are, however, mainly
designed to be applied on sparse sEMG signals. Furthermore, due to their
complex structure, typically, we are faced with memory constraints; require
large training times and a large number of training samples, and; there is the
need to resort to data augmentation and/or transfer learning. In this paper,
for the first time (to the best of our knowledge), we investigate and design a
Vision Transformer (ViT) based architecture to perform hand gesture recognition
from High Density (HD-sEMG) signals. Intuitively speaking, we capitalize on the
recent breakthrough role of the transformer architecture in tackling different
complex problems together with its potential for employing more input
parallelization via its attention mechanism. The proposed Vision
Transformer-based Hand Gesture Recognition (ViT-HGR) framework can overcome the
aforementioned training time problems and can accurately classify a large
number of hand gestures from scratch without any need for data augmentation
and/or transfer learning. The efficiency of the proposed ViT-HGR framework is
evaluated using a recently-released HD-sEMG dataset consisting of 65 isometric
hand gestures. Our experiments with 64-sample (31.25 ms) window size yield
average test accuracy of 84.62 +/- 3.07%, where only 78, 210 number of
parameters is utilized. The compact structure of the proposed ViT-based ViT-HGR
framework (i.e., having significantly reduced number of trainable parameters)
shows great potentials for its practical application for prosthetic control.
- Abstract(参考訳): 近年,表面筋電図(sEMG)信号を用いた手の動き認識を自律的に行うためのディープラーニング(DL)モデルへの関心が高まっている。
しかし、DLモデルは、主にスパースsEMG信号に適用するように設計されている。
さらに、その複雑な構造、典型的にはメモリの制約に直面し、大量のトレーニング時間と大量のトレーニングサンプルを必要とします。
本稿では,まず,高密度(hd-semg)信号から手ジェスチャ認識を行う視覚トランスフォーマ(vit)ベースのアーキテクチャを初めて検討し,設計する。
直感的には、異なる複雑な問題に対処する上でのトランスフォーマーアーキテクチャの最近の画期的な役割と、その注意機構を通じてより入力並列化を採用する可能性に乗じる。
提案したVision Transformer-based Hand Gesture Recognition (ViT-HGR)フレームワークは、前述のトレーニング時間を克服し、データ拡張や転送学習を必要とせずに、スクラッチから多数の手ジェスチャーを正確に分類することができる。
65個の手ジェスチャーからなるHD-sEMGデータセットを用いて,提案フレームワークの有効性を評価する。
64サンプル (31.25 ms) の窓サイズ実験で平均テスト精度は84.62 +/-3.07%であり, 78, 210個のパラメータしか利用していない。
提案した ViT ベースの ViT-HGR フレームワークのコンパクトな構造(トレーニング可能なパラメータの数を大幅に減らした)は、その実用的義肢制御への大きな可能性を示している。
関連論文リスト
- An LSTM Feature Imitation Network for Hand Movement Recognition from sEMG Signals [2.632402517354116]
我々は,Ninapro DB2上の300ms信号ウィンドウ上での閉形式時間特徴学習にFIN(Feature-imitating Network)を適用することを提案する。
次に、下流手の動き認識タスクに事前学習したLSTM-FINを適用して、転送学習機能について検討する。
論文 参考訳(メタデータ) (2024-05-23T21:45:15Z) - EMGTFNet: Fuzzy Vision Transformer to decode Upperlimb sEMG signals for
Hand Gestures Recognition [0.1611401281366893]
本稿では,手動ジェスチャー認識を行うために,EMGTFNetと呼ばれるファジィニューラルブロック(FNB)を用いた視覚変換器(ViT)アーキテクチャを提案する。
提案モデルの精度は49種類の手ジェスチャーからなるNinaProデータベースを用いて検証した。
論文 参考訳(メタデータ) (2023-09-23T18:55:26Z) - A Deep Learning Sequential Decoder for Transient High-Density
Electromyography in Hand Gesture Recognition Using Subject-Embedded Transfer
Learning [11.170031300110315]
ハンドジェスチャ認識(HGR)は、AIによる人間コンピュータの利用の増加により注目されている。
これらのインターフェースには、拡張現実の制御、アジャイルの義肢、外骨格など、さまざまなアプリケーションがある。
これらのインターフェースには、拡張現実の制御、アジャイルの義肢、外骨格など、さまざまなアプリケーションがある。
論文 参考訳(メタデータ) (2023-09-23T05:32:33Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - ViTPose++: Vision Transformer for Generic Body Pose Estimation [70.86760562151163]
様々な側面から身体ポーズ推定を行うため, プレーン・ビジョン・トランスフォーマーの驚くほど優れた特性を示す。
ViTPoseは、特徴をエンコードするエンコーダと、ボディキーポイントをデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。
実験により,大規模なViTPoseモデルの知識は,簡単な知識トークンによって簡単に小さなものに伝達できることが実証された。
論文 参考訳(メタデータ) (2022-12-07T12:33:28Z) - Hand Gesture Recognition Using Temporal Convolutions and Attention
Mechanism [16.399230849853915]
本稿では,この計算負担を軽減するため,時間的畳み込みに基づくハンドジェスチャ認識アーキテクチャ(TC-HGR)を提案する。
表面筋電図(SEMG)信号による手指動作の分類には,注意機構と時間的畳み込みを応用した。
提案手法は,それぞれ300ms,200msのウィンドウサイズに対して81.65%,80.72%の分類精度が得られた。
論文 参考訳(メタデータ) (2021-10-17T04:23:59Z) - Vector-quantized Image Modeling with Improved VQGAN [93.8443646643864]
本稿では,自動回帰的に画像トークンを予測するためにトランスフォーマーを事前訓練するベクトル量子化画像モデリング手法を提案する。
まず,バニラVQGANに対して,アーキテクチャからコードブック学習までの複数の改良を提案する。
ImageNetで256x256解像度でトレーニングすると、175.1のインセプションスコア(IS)と4.17のFrechet Inception Distance(FID)を達成する。
論文 参考訳(メタデータ) (2021-10-09T18:36:00Z) - TEMGNet: Deep Transformer-based Decoding of Upperlimb sEMG for Hand
Gestures Recognition [16.399230849853915]
本研究では,SEMG信号を処理するためのTransformerアーキテクチャに基づくフレームワークを開発する。
上肢のジェスチャーを分類・認識するための新しい視覚変換器(ViT)ベースのニューラルネットワークアーキテクチャ(TEMGNet)を提案する。
論文 参考訳(メタデータ) (2021-09-25T15:03:22Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - Semantics-aware Adaptive Knowledge Distillation for Sensor-to-Vision
Action Recognition [131.6328804788164]
本稿では,視覚・センサ・モダリティ(動画)における行動認識を強化するためのフレームワーク,Semantics-Aware Adaptive Knowledge Distillation Networks (SAKDN)を提案する。
SAKDNは複数のウェアラブルセンサーを教師のモダリティとして使用し、RGB動画を学生のモダリティとして使用している。
論文 参考訳(メタデータ) (2020-09-01T03:38:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。