論文の概要: Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis
- arxiv url: http://arxiv.org/abs/2404.11213v1
- Date: Wed, 17 Apr 2024 09:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 14:35:31.425455
- Title: Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis
- Title(参考訳): ジェスチャー認識における耐雑音性の再検討:表面筋電図信号解析の短期的改善
- Authors: Weiyu Guo, Ziyue Qiao, Ying Sun, Hui Xiong,
- Abstract要約: 短期拡張モジュール(STEM)は、様々なモデルと容易に統合できる。
1)手動データ拡張なしでノイズを低減できる難易度学習,2)様々なモデルに適応可能なスケーラビリティ,3)費用対効果,2)最小限のウェイトシェアリングによる短期的な強化を効率的な注意機構で達成する。
- 参考スコア(独自算出の注目度): 21.078713208075346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gesture recognition based on surface electromyography (sEMG) has been gaining importance in many 3D Interactive Scenes. However, sEMG is easily influenced by various forms of noise in real-world environments, leading to challenges in providing long-term stable interactions through sEMG. Existing methods often struggle to enhance model noise resilience through various predefined data augmentation techniques. In this work, we revisit the problem from a short term enhancement perspective to improve precision and robustness against various common noisy scenarios with learnable denoise using sEMG intrinsic pattern information and sliding-window attention. We propose a Short Term Enhancement Module(STEM) which can be easily integrated with various models. STEM offers several benefits: 1) Learnable denoise, enabling noise reduction without manual data augmentation; 2) Scalability, adaptable to various models; and 3) Cost-effectiveness, achieving short-term enhancement through minimal weight-sharing in an efficient attention mechanism. In particular, we incorporate STEM into a transformer, creating the Short Term Enhanced Transformer (STET). Compared with best-competing approaches, the impact of noise on STET is reduced by more than 20%. We also report promising results on both classification and regression datasets and demonstrate that STEM generalizes across different gesture recognition tasks.
- Abstract(参考訳): 表面筋電図(sEMG)に基づくジェスチャー認識は,多くの3次元インタラクティブシーンにおいて重要視されている。
しかし、sEMGは実環境における様々なノイズの影響を受けやすく、sEMGを介して長期安定な相互作用を提供する上での課題に繋がる。
既存の手法は、様々な事前定義されたデータ拡張技術を通して、モデルノイズの回復力を高めるのに苦労することが多い。
本研究では,SEMG固有のパターン情報とスライディング・ウインドウ・アテンションを用いて,学習可能な雑音を伴う様々な一般的な雑音シナリオに対する精度と頑健性を向上させるために,短期的な拡張の観点から問題を再検討する。
本稿では,様々なモデルと容易に統合できるショート・ターム・エンハンスメント・モジュール(STEM)を提案する。
STEMにはいくつかの利点があります。
1)手作業によるデータ拡張を伴わずにノイズ低減が可能な難聴者
2)スケーラビリティ,各種モデルへの適応性,及び
3) 費用対効果, 減量化による短期的な向上, 効率的な注意機構の確立。
特に,STEMを変換器に組み込んで,STET(Short Term Enhanced Transformer)を作成する。
ベストコンペティングアプローチと比較して、STETに対するノイズの影響は20%以上減少する。
また、分類と回帰データの両方について有望な結果を報告し、STEMが様々なジェスチャー認識タスクにまたがって一般化することを実証した。
関連論文リスト
- Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。
この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-10-18T02:31:36Z) - A Multi-Resolution Mutual Learning Network for Multi-Label ECG Classification [11.105845244103506]
本稿では,Multi-Resolution Mutual Learning Network (MRM-Net)を提案する。
MRM-Netはデュアルレゾリューションアテンションアーキテクチャと機能補完機構を備えている。
マルチラベルのECG分類性能において、既存の手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-06-12T13:40:03Z) - Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。
我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。
我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-06-05T13:50:59Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。
テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文 参考訳(メタデータ) (2024-01-21T11:55:42Z) - A Multi-label Classification Approach to Increase Expressivity of
EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。
動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文 参考訳(メタデータ) (2023-09-13T20:21:41Z) - IDGI: A Framework to Eliminate Explanation Noise from Integrated
Gradients [19.268778433411676]
統合グラディエンス(IG)とその変種は、ディープニューラルネットワークの決定を解釈するためのよく知られたテクニックである。
IGベースのアプローチは最先端のパフォーマンスを実現するが、しばしばノイズを説明精度マップに統合する。
本稿では,分析結果に基づいて説明ノイズを低減するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-03-24T19:05:45Z) - Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。
4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文 参考訳(メタデータ) (2023-01-18T04:54:58Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement [23.6932090265405]
マルチモーダル学習は、音声強調(SE)性能を向上させる効果的な方法であることが証明されている。
音声と顔の筋電図を統合したマルチモーダルSEのための新しいEMGSEフレームワークを提案する。
実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-14T06:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。