論文の概要: SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition
- arxiv url: http://arxiv.org/abs/2505.19369v1
- Date: Sun, 25 May 2025 23:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.075695
- Title: SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition
- Title(参考訳): SETransformer:ロバストなヒューマンアクティビティ認識のためのハイブリッドアテンションベースアーキテクチャ
- Authors: Yunbo Liu, Xukui Qin, Yifan Gao, Xiang Li, Chengwei Feng,
- Abstract要約: ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 7.291558599547268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human Activity Recognition (HAR) using wearable sensor data has become a central task in mobile computing, healthcare, and human-computer interaction. Despite the success of traditional deep learning models such as CNNs and RNNs, they often struggle to capture long-range temporal dependencies and contextual relevance across multiple sensor channels. To address these limitations, we propose SETransformer, a hybrid deep neural architecture that combines Transformer-based temporal modeling with channel-wise squeeze-and-excitation (SE) attention and a learnable temporal attention pooling mechanism. The model takes raw triaxial accelerometer data as input and leverages global self-attention to capture activity-specific motion dynamics over extended time windows, while adaptively emphasizing informative sensor channels and critical time steps. We evaluate SETransformer on the WISDM dataset and demonstrate that it significantly outperforms conventional models including LSTM, GRU, BiLSTM, and CNN baselines. The proposed model achieves a validation accuracy of 84.68\% and a macro F1-score of 84.64\%, surpassing all baseline architectures by a notable margin. Our results show that SETransformer is a competitive and interpretable solution for real-world HAR tasks, with strong potential for deployment in mobile and ubiquitous sensing applications.
- Abstract(参考訳): ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
CNNやRNNといった従来のディープラーニングモデルの成功にもかかわらず、長距離の時間的依存関係と複数のセンサーチャネル間のコンテキスト的関連性を捉えるのに苦労することが多い。
これらの制約に対処するために,Transformerベースの時間モデルとチャネルワイド・スクライブ・アンド・エキサイティング(SE)アテンションと,学習可能な時間的アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
このモデルは、生の3軸加速度計データを入力として利用し、グローバルな自己アテンションを活用して、情報伝達センサーチャネルと臨界時間ステップを適応的に強調しながら、拡張時間ウィンドウ上でのアクティビティ固有の運動ダイナミクスをキャプチャする。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
提案モデルでは, 検証精度84.68\%, マクロF1スコア84.64\%を達成し, 全ベースラインアーキテクチャを顕著な差で上回っている。
この結果から,SETransformerは実世界のHARタスクに対する競合的かつ解釈可能なソリューションであり,モバイルおよびユビキタスセンシングアプリケーションに展開する可能性が高いことが示唆された。
関連論文リスト
- Estimating Vehicle Speed on Roadways Using RNNs and Transformers: A Video-based Approach [0.0]
本研究は,高度な機械学習モデル,特にLong Short-Term Memory(LSTM),Gated Recurrent Units(GRU),Transformersの,ビデオデータを用いた車両速度推定タスクへの適用について検討する。
論文 参考訳(メタデータ) (2025-02-21T15:51:49Z) - OneTrack-M: A multitask approach to transformer-based MOT models [0.0]
マルチオブジェクト追跡(MOT)はコンピュータビジョンにおいて重要な問題である。
OneTrack-Mは、計算効率と精度のトラッキングを強化するために設計されたトランスフォーマーベースのMOTモデルである。
論文 参考訳(メタデータ) (2025-02-06T20:02:06Z) - LinFormer: A Linear-based Lightweight Transformer Architecture For Time-Aware MIMO Channel Prediction [39.12741712294741]
第6世代(6G)モバイルネットワークは、ハイモビリティ通信をサポートする上で、新たな課題をもたらす。
本稿では,スケーラブルで全線形なエンコーダのみのトランスフォーマーモデルに基づく,革新的なチャネル予測フレームワークLinFormerを提案する。
提案手法は,高い予測精度を維持しつつ,計算複雑性を大幅に低減し,コスト効率のよい基地局(BS)の展開に適している。
論文 参考訳(メタデータ) (2024-10-28T13:04:23Z) - PointMT: Efficient Point Cloud Analysis with Hybrid MLP-Transformer Architecture [46.266960248570086]
本研究は,効率的な特徴集約のための複雑局所的注意機構を導入することで,自己注意機構の二次的複雑さに取り組む。
また,各チャネルの注目重量分布を適応的に調整するパラメータフリーチャネル温度適応機構を導入する。
我々は,PointMTが性能と精度の最適なバランスを維持しつつ,最先端手法に匹敵する性能を実現することを示す。
論文 参考訳(メタデータ) (2024-08-10T10:16:03Z) - CAS-ViT: Convolutional Additive Self-attention Vision Transformers for Efficient Mobile Applications [73.80247057590519]
ビジョントランスフォーマー(ViT)は、トークンミキサーの強力なグローバルコンテキスト能力によって、ニューラルネットワークの革命的な進歩を示す。
CAS-ViT: Convolutional Additive Self-attention Vision Transformerを導入し、モバイルアプリケーションにおける効率と性能のバランスを実現する。
ImageNet-1Kのパラメータは12M/21Mで83.0%/84.1%である。
論文 参考訳(メタデータ) (2024-08-07T11:33:46Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z) - A Driving Behavior Recognition Model with Bi-LSTM and Multi-Scale CNN [59.57221522897815]
運転行動認識のための軌道情報に基づくニューラルネットワークモデルを提案する。
提案手法を公開BLVDデータセット上で評価し,満足な性能を実現する。
論文 参考訳(メタデータ) (2021-03-01T06:47:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。