論文の概要: WaveFormer: A Lightweight Transformer Model for sEMG-based Gesture Recognition
- arxiv url: http://arxiv.org/abs/2506.11168v1
- Date: Thu, 12 Jun 2025 04:07:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.530463
- Title: WaveFormer: A Lightweight Transformer Model for sEMG-based Gesture Recognition
- Title(参考訳): WaveFormer: sEMGに基づくジェスチャー認識のための軽量トランスモデル
- Authors: Yanlong Chen, Mattia Orlandi, Pierangelo Maria Rapa, Simone Benatti, Luca Benini, Yawei Li,
- Abstract要約: WaveFormerは、sEMGジェスチャー認識用に設計された軽量トランスフォーマーベースのアーキテクチャである。
我々のモデルは、新しい学習可能なウェーブレット変換によって時間領域と周波数領域の機能を統合し、特徴抽出を強化する。
たった3100万のパラメータで、WaveFormerはEPN612データセットの95%の分類精度を達成し、より大きなモデルを上回っている。
- 参考スコア(独自算出の注目度): 18.978031999678507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-machine interaction, particularly in prosthetic and robotic control, has seen progress with gesture recognition via surface electromyographic (sEMG) signals.However, classifying similar gestures that produce nearly identical muscle signals remains a challenge, often reducing classification accuracy. Traditional deep learning models for sEMG gesture recognition are large and computationally expensive, limiting their deployment on resource-constrained embedded systems. In this work, we propose WaveFormer, a lightweight transformer-based architecture tailored for sEMG gesture recognition. Our model integrates time-domain and frequency-domain features through a novel learnable wavelet transform, enhancing feature extraction. In particular, the WaveletConv module, a multi-level wavelet decomposition layer with depthwise separable convolution, ensures both efficiency and compactness. With just 3.1 million parameters, WaveFormer achieves 95% classification accuracy on the EPN612 dataset, outperforming larger models. Furthermore, when profiled on a laptop equipped with an Intel CPU, INT8 quantization achieves real-time deployment with a 6.75 ms inference latency.
- Abstract(参考訳): 人間と機械の相互作用、特に義肢とロボットの制御では、表面筋電図(sEMG)信号によるジェスチャー認識が進歩しているが、ほぼ同一の筋肉信号を生成する類似のジェスチャーの分類は依然として困難であり、しばしば分類精度を低下させる。
従来のSEMGジェスチャ認識のためのディープラーニングモデルは大規模で計算コストが高く、リソースに制約のある組み込みシステムへのデプロイを制限している。
本研究では,SEMGジェスチャ認識に適した軽量トランスフォーマーアーキテクチャであるWaveFormerを提案する。
我々のモデルは、新しい学習可能なウェーブレット変換によって時間領域と周波数領域の機能を統合し、特徴抽出を強化する。
特に、深く分離可能な畳み込みを持つマルチレベルウェーブレット分解層であるWaveletConvモジュールは、効率性とコンパクト性の両方を保証する。
たった3100万のパラメータで、WaveFormerはEPN612データセットの95%の分類精度を達成し、より大きなモデルを上回っている。
さらに、Intel CPUを搭載したラップトップ上でプロファイルされると、INT8量子化は6.75msの推論遅延でリアルタイムなデプロイメントを実現する。
関連論文リスト
- Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation [0.5312470855079862]
医用画像用3D変換器のWaveFormerについて紹介する。
それは人間の視覚認識システムのトップダウンメカニズムにインスパイアされている。
グローバルコンテキストと高周波の詳細の両方を保存し、重いサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換える。
論文 参考訳(メタデータ) (2025-03-31T06:28:41Z) - Wavelet-based Bi-dimensional Aggregation Network for SAR Image Change Detection [53.842568573251214]
3つのSARデータセットによる実験結果から、我々のWBANetは現代最先端の手法を著しく上回っていることが明らかとなった。
我々のWBANetは、それぞれのデータセットで98.33%、96.65%、96.62%の正確な分類(PCC)を達成している。
論文 参考訳(メタデータ) (2024-07-18T04:36:10Z) - EMGTFNet: Fuzzy Vision Transformer to decode Upperlimb sEMG signals for
Hand Gestures Recognition [0.1611401281366893]
本稿では,手動ジェスチャー認識を行うために,EMGTFNetと呼ばれるファジィニューラルブロック(FNB)を用いた視覚変換器(ViT)アーキテクチャを提案する。
提案モデルの精度は49種類の手ジェスチャーからなるNinaProデータベースを用いて検証した。
論文 参考訳(メタデータ) (2023-09-23T18:55:26Z) - One-Dimensional Deep Image Prior for Curve Fitting of S-Parameters from
Electromagnetic Solvers [57.441926088870325]
Deep Image Prior(ディープ・イメージ・プライオリ、ディープ・イメージ・プライオリ、DIP)は、ランダムなd畳み込みニューラルネットワークの重みを最適化し、ノイズや過度な測定値からの信号に適合させる技術である。
本稿では,Vector Fitting (VF) の実装に対して,ほぼすべてのテスト例において優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-06T20:28:37Z) - Wave-ViT: Unifying Wavelet and Transformers for Visual Representation
Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。
本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文 参考訳(メタデータ) (2022-07-11T16:03:51Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - Bioformers: Embedding Transformers for Ultra-Low Power sEMG-based
Gesture Recognition [21.486555297061717]
人間と機械の相互作用は、義手やロボットアームの制御など、リハビリ作業において勢いを増している。
表面筋電図(sEMG)信号を利用したジェスチャー認識は最も有望なアプローチの一つである。
しかし、同様のジェスチャーが同様の筋収縮をもたらすため、これらの信号の分析は依然として多くの課題を呈している。
論文 参考訳(メタデータ) (2022-03-24T08:37:26Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Towards Domain-Independent and Real-Time Gesture Recognition Using
mmWave Signal [11.76969975145963]
DI-Gesture はドメインに依存しないリアルタイムの mmWave ジェスチャー認識システムである。
リアルタイムシナリオでは、DI-Gesutreの精度は平均推定時間2.87msで97%以上に達する。
論文 参考訳(メタデータ) (2021-11-11T13:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。