論文の概要: IsoNet: Causal Analysis of Multimodal Transformers for Neuromuscular Gesture Classification
- arxiv url: http://arxiv.org/abs/2506.16744v1
- Date: Fri, 20 Jun 2025 04:31:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:05.343001
- Title: IsoNet: Causal Analysis of Multimodal Transformers for Neuromuscular Gesture Classification
- Title(参考訳): IsoNet:神経筋ジェスチャ分類のためのマルチモーダルトランスの因果解析
- Authors: Eion Tyacke, Kunal Gupta, Jay Patel, Rui Li,
- Abstract要約: クロスモーダル相互作用は、トランス層間の決定信号の約30%に寄与する。
この研究は神経ロボティクス系のためのセンサーアレイの設計に有用であろう。
- 参考スコア(独自算出の注目度): 3.847566579393618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hand gestures are a primary output of the human motor system, yet the decoding of their neuromuscular signatures remains a bottleneck for basic neuroscience and assistive technologies such as prosthetics. Traditional human-machine interface pipelines rely on a single biosignal modality, but multimodal fusion can exploit complementary information from sensors. We systematically compare linear and attention-based fusion strategies across three architectures: a Multimodal MLP, a Multimodal Transformer, and a Hierarchical Transformer, evaluating performance on scenarios with unimodal and multimodal inputs. Experiments use two publicly available datasets: NinaPro DB2 (sEMG and accelerometer) and HD-sEMG 65-Gesture (high-density sEMG and force). Across both datasets, the Hierarchical Transformer with attention-based fusion consistently achieved the highest accuracy, surpassing the multimodal and best single-modality linear-fusion MLP baseline by over 10% on NinaPro DB2 and 3.7% on HD-sEMG. To investigate how modalities interact, we introduce an Isolation Network that selectively silences unimodal or cross-modal attention pathways, quantifying each group of token interactions' contribution to downstream decisions. Ablations reveal that cross-modal interactions contribute approximately 30% of the decision signal across transformer layers, highlighting the importance of attention-driven fusion in harnessing complementary modality information. Together, these findings reveal when and how multimodal fusion would enhance biosignal classification and also provides mechanistic insights of human muscle activities. The study would be beneficial in the design of sensor arrays for neurorobotic systems.
- Abstract(参考訳): 手のジェスチャーはヒトの運動系の主要な出力であるが、神経筋の信号の復号化は、基礎的な神経科学や人工装具などの補助技術においてボトルネックとなっている。
従来のヒューマン・マシン・インタフェース・パイプラインは単一の生体信号のモダリティに依存しているが、マルチモーダル・フュージョンはセンサーからの補完的な情報を利用することができる。
我々は,マルチモーダルMLP,マルチモーダル変換器,階層変換器の3つのアーキテクチャ間の線形および注意に基づく融合戦略を体系的に比較し,非モーダルおよびマルチモーダル入力のシナリオにおける性能を評価する。
実験では、NinaPro DB2(sEMGと加速度計)とHD-sEMG 65-Gesture(高密度sEMGと力)の2つの公開データセットを使用する。
いずれのデータセットも、注目ベースの融合を持つ階層変換器は、NinaPro DB2では10%以上、HD-sEMGでは3.7%という、マルチモーダルかつ最高の単一モードの線形融合MLPベースラインをはるかに上回っている。
モダリティがどのように振る舞うかを調べるために,各トークン相互作用の集団が下流決定に寄与することを定量化し,一助的・横断的注意経路を選択的に沈黙する分離ネットワークを導入する。
アブレーションは、相互モーダル相互作用がトランスフォーマー層間の決定信号の約30%に寄与し、相補的なモーダル情報を活用する上での注意駆動融合の重要性を強調している。
これらの知見とともに、マルチモーダル融合が生体信号の分類を強化し、人間の筋肉活動の力学的洞察を与える時期と方法が明らかになった。
この研究は神経ロボティクス系のためのセンサーアレイの設計に有用であろう。
関連論文リスト
- BrainOmni: A Brain Foundation Model for Unified EEG and MEG Signals [50.76802709706976]
異種脳波とMEG記録を対象とする脳基礎モデルBrain Omniを提案する。
多様なデータソースを統一するために、脳の活動を離散表現に定量化する最初のトークンであるBrainTokenizerを紹介します。
EEGの合計1,997時間、MEGデータの656時間は、事前トレーニングのために公開されているソースからキュレーションされ、標準化されている。
論文 参考訳(メタデータ) (2025-05-18T14:07:14Z) - Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Multi-scale Transformer-based Network for Emotion Recognition from Multi
Physiological Signals [11.479653866646762]
本稿では,生理学的データから感情認識を行うためのマルチスケールトランスフォーマーを用いた効率的な手法を提案する。
我々のアプローチは、内部信号と人間の感情の関係を確立するために、データのスケーリングと組み合わせたマルチモーダル手法を適用することである。
EPiCコンペティションのCASEデータセットでは,RMSEスコアが1.45。
論文 参考訳(メタデータ) (2023-05-01T11:10:48Z) - MMTSA: Multimodal Temporal Segment Attention Network for Efficient Human
Activity Recognition [33.94582546667864]
マルチモーダルセンサは、人間の活動認識のための正確な機械学習方法を開発するために補完情報を提供する。
本稿では,RGBカメラと慣性計測ユニット(IMU)を用いたHARのための効率的なマルチモーダルニューラルネットワークアーキテクチャを提案する。
3つの確立された公開データセットを用いて,HARにおけるMTSAの有効性と効率を評価した。
論文 参考訳(メタデータ) (2022-10-14T08:05:16Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。