Fugu-MT 論文翻訳(概要): Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis

論文の概要: Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis

arxiv url: http://arxiv.org/abs/2404.11213v1
Date: Wed, 17 Apr 2024 09:57:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 14:35:31.425455
Title: Revisiting Noise Resilience Strategies in Gesture Recognition: Short-Term Enhancement in Surface Electromyographic Signal Analysis
Title（参考訳）: ジェスチャー認識における耐雑音性の再検討:表面筋電図信号解析の短期的改善
Authors: Weiyu Guo, Ziyue Qiao, Ying Sun, Hui Xiong,
Abstract要約: 短期拡張モジュール(STEM)は、様々なモデルと容易に統合できる。 1)手動データ拡張なしでノイズを低減できる難易度学習,2)様々なモデルに適応可能なスケーラビリティ,3)費用対効果,2)最小限のウェイトシェアリングによる短期的な強化を効率的な注意機構で達成する。
参考スコア（独自算出の注目度）: 21.078713208075346
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Gesture recognition based on surface electromyography (sEMG) has been gaining importance in many 3D Interactive Scenes. However, sEMG is easily influenced by various forms of noise in real-world environments, leading to challenges in providing long-term stable interactions through sEMG. Existing methods often struggle to enhance model noise resilience through various predefined data augmentation techniques. In this work, we revisit the problem from a short term enhancement perspective to improve precision and robustness against various common noisy scenarios with learnable denoise using sEMG intrinsic pattern information and sliding-window attention. We propose a Short Term Enhancement Module(STEM) which can be easily integrated with various models. STEM offers several benefits: 1) Learnable denoise, enabling noise reduction without manual data augmentation; 2) Scalability, adaptable to various models; and 3) Cost-effectiveness, achieving short-term enhancement through minimal weight-sharing in an efficient attention mechanism. In particular, we incorporate STEM into a transformer, creating the Short Term Enhanced Transformer (STET). Compared with best-competing approaches, the impact of noise on STET is reduced by more than 20%. We also report promising results on both classification and regression datasets and demonstrate that STEM generalizes across different gesture recognition tasks.
Abstract（参考訳）: 表面筋電図(sEMG)に基づくジェスチャー認識は,多くの3次元インタラクティブシーンにおいて重要視されている。しかし、sEMGは実環境における様々なノイズの影響を受けやすく、sEMGを介して長期安定な相互作用を提供する上での課題に繋がる。既存の手法は、様々な事前定義されたデータ拡張技術を通して、モデルノイズの回復力を高めるのに苦労することが多い。本研究では,SEMG固有のパターン情報とスライディング・ウインドウ・アテンションを用いて,学習可能な雑音を伴う様々な一般的な雑音シナリオに対する精度と頑健性を向上させるために,短期的な拡張の観点から問題を再検討する。本稿では,様々なモデルと容易に統合できるショート・ターム・エンハンスメント・モジュール(STEM)を提案する。 STEMにはいくつかの利点があります。 1)手作業によるデータ拡張を伴わずにノイズ低減が可能な難聴者 2)スケーラビリティ,各種モデルへの適応性,及び 3) 費用対効果, 減量化による短期的な向上, 効率的な注意機構の確立。特に,STEMを変換器に組み込んで,STET(Short Term Enhanced Transformer)を作成する。ベストコンペティングアプローチと比較して、STETに対するノイズの影響は20%以上減少する。また、分類と回帰データの両方について有望な結果を報告し、STEMが様々なジェスチャー認識タスクにまたがって一般化することを実証した。

関連論文リスト

FAIM: Frequency-Aware Interactive Mamba for Time Series Classification [87.84511960413715]
時系列分類(TSC)は、環境モニタリング、診断、姿勢認識など、多くの実世界の応用において重要である。本稿では,周波数対応対話型マンバモデルであるFAIMを提案する。 FAIMは既存の最先端(SOTA)手法を一貫して上回り、精度と効率のトレードオフが優れていることを示す。
論文参考訳（メタデータ） (2025-11-26T08:36:33Z)
Improving Micro-Expression Recognition with Phase-Aware Temporal Augmentation [0.0]
マイクロ・エクスプレッション(ME)は、半秒未満の真の感情を示す、簡潔で不随意的な顔の動きである。深層学習は、マイクロ圧縮認識(MER)に大きな進歩をもたらしたが、その効果は、注釈付きMEデータセットの不足によって制限されている。本稿では動的画像に基づく位相認識時間拡張法を提案する。
論文参考訳（メタデータ） (2025-10-17T09:20:51Z)
Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。 MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文参考訳（メタデータ） (2025-09-10T10:18:56Z)
Modality-Specific Speech Enhancement and Noise-Adaptive Fusion for Acoustic and Body-Conduction Microphone Framework [0.0]
体導マイクロホン信号(BMS)は空中音をバイパスし、強い耐雑音性を提供する。本稿では,BMSと音響マイクロホン信号(AMS)を組み合わせた新しいマルチモーダルフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-24T12:45:34Z)
A Small-footprint Acoustic Echo Cancellation Solution for Mobile Full-Duplex Speech Interactions [1.5929852667227002]
本稿では,様々なハードウェア,非線形歪み,長時間の待ち時間といったシナリオにおける課題に対処するニューラルネットワークベースのソリューションを提案する。プログレッシブ・ラーニング(Progressive Learning)は、AEC増強効果を改善するために使用され、それによって音声品質が大幅に向上する。
論文参考訳（メタデータ） (2025-08-11T02:45:31Z)
A Novel Data Augmentation Strategy for Robust Deep Learning Classification of Biomedical Time-Series Data: Application to ECG and EEG Analysis [2.355460994057843]
本研究では,様々な信号タイプにまたがる最先端性能を実現する,新しい統合型深層学習フレームワークを提案する。従来の研究とは異なり、将来予測能力を達成するために信号の複雑さを科学的に増加させ、最高の予測を導いた。アーキテクチャには130MBのメモリとプロセスが10ミリ秒で必要であり、ローエンドデバイスやウェアラブルデバイスへのデプロイに適していることを示唆している。
論文参考訳（メタデータ） (2025-07-16T21:38:10Z)
FEAT: Full-Dimensional Efficient Attention Transformer for Medical Video Generation [14.903360987684483]
高品質なダイナミック・メディカル・ビデオのためのフル次元能動的アテンション・トランスフォーマであるFEATを提案する。 FEAT-Sは、最先端モデルのEndoraのパラメータのわずか23%しか持たないが、同等またはそれ以上の性能を発揮することを示した。
論文参考訳（メタデータ） (2025-06-05T12:31:02Z)
Multi-Timescale Motion-Decoupled Spiking Transformer for Audio-Visual Zero-Shot Learning [73.7808110878037]
本稿では,MDST++(Multi-Timescale Motion-Decoupled Spiking Transformer)を提案する。 RGB画像をイベントに変換することで、より正確に動き情報をキャプチャし、背景のバイアスを軽減する。本実験はMDST++の有効性を検証し,主流ベンチマークにおける最先端手法よりも一貫した優位性を示した。
論文参考訳（メタデータ） (2025-05-26T13:06:01Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
FreSca: Scaling in Frequency Space Enhances Diffusion Models [55.75504192166779]
本稿では,潜時拡散モデルにおける周波数制御について検討する。本稿では,低周波成分と高周波成分にノイズ差を分解する新しいフレームワークFreScaを紹介する。 FreScaはモデルの再トレーニングやアーキテクチャの変更なしに動作し、モデルとタスクに依存しない制御を提供する。
論文参考訳（メタデータ） (2025-04-02T22:03:11Z)
CEReBrO: Compact Encoder for Representations of Brain Oscillations Using Efficient Alternating Attention [53.539020807256904]
交互注意(CEReBrO)を用いた脳振動の表現のための圧縮法について紹介する。トークン化方式は、チャネルごとのパッチで脳波信号を表現します。本研究では,チャネル内時間的ダイナミックスとチャネル間空間的相関を共同でモデル化し,通常の自己アテンションに比べて6倍少ないメモリで2倍の速度向上を実現するための注意機構を提案する。
論文参考訳（メタデータ） (2025-01-18T21:44:38Z)
Towards Robust Transcription: Exploring Noise Injection Strategies for Training Data Augmentation [55.752737615873464]
本研究では,SNR(Signal-to-Noise Ratio)レベルにおける白色雑音の影響について検討した。この研究は、様々な音環境における一貫した性能を維持する転写モデルの開発に向けた予備的な研究として、貴重な洞察を与えてくれることを願っている。
論文参考訳（メタデータ） (2024-10-18T02:31:36Z)
A Multi-Resolution Mutual Learning Network for Multi-Label ECG Classification [11.105845244103506]
本稿では,Multi-Resolution Mutual Learning Network (MRM-Net)を提案する。 MRM-Netはデュアルレゾリューションアテンションアーキテクチャと機能補完機構を備えている。マルチラベルのECG分類性能において、既存の手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-06-12T13:40:03Z)
Multi-Microphone Speech Emotion Recognition using the Hierarchical Token-semantic Audio Transformer Architecture [11.063156506583562]
これらの課題に対処し、感情分類精度を向上させるために、マルチマイクロホン信号の処理を提案する。我々は,マルチチャンネルオーディオ入力を処理するために,最先端のトランスフォーマーモデルであるHTS-ATを採用する。我々のマルチマイクロフォンモデルは,実世界の残響環境での試験において,シングルチャネルベースラインに比べて優れた性能を実現する。
論文参考訳（メタデータ） (2024-06-05T13:50:59Z)
S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠であるこれまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-22T11:40:49Z)
Exploring Missing Modality in Multimodal Egocentric Datasets [89.76463983679058]
モダリティが欠如している場合でも,MMT(Missing Modality Token)という新しい概念を導入してパフォーマンスを維持する。テストセットの半分がモダル不完全である場合、元の$sim 30%$ dropから$sim 10%$に減らします。
論文参考訳（メタデータ） (2024-01-21T11:55:42Z)
A Multi-label Classification Approach to Increase Expressivity of EMG-based Gesture Recognition [4.701158597171363]
本研究の目的は,表面筋電図に基づくジェスチャー認識システム(SEMG)の表現性を効率的に向上することである。動作を2つのバイオメカニカルな独立したコンポーネントに分割する問題変換アプローチを用いる。
論文参考訳（メタデータ） (2023-09-13T20:21:41Z)
IDGI: A Framework to Eliminate Explanation Noise from Integrated Gradients [19.268778433411676]
統合グラディエンス(IG)とその変種は、ディープニューラルネットワークの決定を解釈するためのよく知られたテクニックである。 IGベースのアプローチは最先端のパフォーマンスを実現するが、しばしばノイズを説明精度マップに統合する。本稿では,分析結果に基づいて説明ノイズを低減するための新しい手法を提案する。
論文参考訳（メタデータ） (2023-03-24T19:05:45Z)
Improve Noise Tolerance of Robust Loss via Noise-Awareness [60.34670515595074]
本稿では,NARL-Adjuster(NARL-Adjuster for brevity)と呼ばれる,ハイパーパラメータ予測関数を適応的に学習するメタラーニング手法を提案する。 4つのSOTAロバストな損失関数を我々のアルゴリズムに統合し,提案手法の一般性および性能をノイズ耐性と性能の両面で検証した。
論文参考訳（メタデータ） (2023-01-18T04:54:58Z)
MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文参考訳（メタデータ） (2022-11-02T23:34:12Z)
Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文参考訳（メタデータ） (2022-09-01T10:46:09Z)
EMGSE: Acoustic/EMG Fusion for Multimodal Speech Enhancement [23.6932090265405]
マルチモーダル学習は、音声強調(SE)性能を向上させる効果的な方法であることが証明されている。音声と顔の筋電図を統合したマルチモーダルSEのための新しいEMGSEフレームワークを提案する。実験結果から,提案したEMGSEシステムは,音声のみのSEシステムよりも優れた性能が得られることがわかった。
論文参考訳（メタデータ） (2022-02-14T06:39:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。