論文の概要: Enhancing Fitness Movement Recognition with Attention Mechanism and Pre-Trained Feature Extractors
- arxiv url: http://arxiv.org/abs/2509.02511v1
- Date: Tue, 02 Sep 2025 17:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.115522
- Title: Enhancing Fitness Movement Recognition with Attention Mechanism and Pre-Trained Feature Extractors
- Title(参考訳): 注意機構と事前訓練機能付き外乱器によるフィットネス運動認識の強化
- Authors: Shanjid Hasan Nishat, Srabonti Deb, Mohiuddin Ahmed,
- Abstract要約: フィットネス運動認識は、健康モニタリング、リハビリテーション、パーソナライズされたフィットネストレーニングにおいて重要な役割を果たす。
本稿では,空間的注意によって強化されたLong Short-Term Memory(LSTM)ネットワークと,事前訓練された2次元畳み込みニューラルネットワーク(CNN)を統合するフレームワークを提案する。
我々は、このフレームワークをUCF101データセットのキュレートされたサブセット上で評価し、ResNet50ベースの構成で93.34%のピーク精度を達成した。
- 参考スコア(独自算出の注目度): 1.7619303397097408
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fitness movement recognition, a focused subdomain of human activity recognition (HAR), plays a vital role in health monitoring, rehabilitation, and personalized fitness training by enabling automated exercise classification from video data. However, many existing deep learning approaches rely on computationally intensive 3D models, limiting their feasibility in real-time or resource-constrained settings. In this paper, we present a lightweight and effective framework that integrates pre-trained 2D Convolutional Neural Networks (CNNs) such as ResNet50, EfficientNet, and Vision Transformers (ViT) with a Long Short-Term Memory (LSTM) network enhanced by spatial attention. These models efficiently extract spatial features while the LSTM captures temporal dependencies, and the attention mechanism emphasizes informative segments. We evaluate the framework on a curated subset of the UCF101 dataset, achieving a peak accuracy of 93.34\% with the ResNet50-based configuration. Comparative results demonstrate the superiority of our approach over several state-of-the-art HAR systems. The proposed method offers a scalable and real-time-capable solution for fitness activity recognition with broader applications in vision-based health and activity monitoring.
- Abstract(参考訳): 映像データから自動運動分類を行うことにより、健康モニタリング、リハビリテーション、パーソナライズされたフィットネストレーニングにおいて、人間の活動認識(HAR)の焦点を絞ったサブドメインであるフィットネスムーブメント認識(Fitness Movement Recognition)が重要な役割を果たす。
しかし、既存のディープラーニングアプローチの多くは、計算集約的な3Dモデルに依存しており、リアルタイムやリソース制約のある設定での実現可能性を制限する。
本稿では,ResNet50,EfficientNet,ViTなどの事前学習された2次元畳み込みニューラルネットワーク(CNN)と,空間的注意による長期記憶(LSTM)ネットワークを統合した軽量かつ効率的なフレームワークを提案する。
これらのモデルは、LSTMが時間的依存を捉えている間に空間的特徴を効率的に抽出し、注意機構は情報的セグメントを強調する。
このフレームワークをUCF101データセットのキュレートされたサブセット上で評価し、ResNet50ベースの構成で93.34\%のピーク精度を達成した。
その結果,いくつかのHARシステムに対するアプローチの優位性が示された。
提案手法は、視力に基づく健康・活動モニタリングの幅広い応用により、フィットネスアクティビティ認識のためのスケーラブルでリアルタイムなソリューションを提供する。
関連論文リスト
- Spatiotemporal Attention Learning Framework for Event-Driven Object Recognition [1.0445957451908694]
イベントベースの視覚センサは、位置、極性、情報を含むスパースイベントストリームとして、局所ピクセルレベルの強度変化をキャプチャする。
本稿では、CBAM(Contemporalal Block Attention Module)により強化されたVARGGネットワークを利用した、イベントベースのオブジェクト認識のための新しい学習フレームワークを提案する。
提案手法は,従来のVGGモデルと比較してパラメータ数を2.3%削減しつつ,最先端のResNet手法に匹敵する性能を実現する。
論文 参考訳(メタデータ) (2025-04-01T02:37:54Z) - Spiking Meets Attention: Efficient Remote Sensing Image Super-Resolution with Attention Spiking Neural Networks [57.17129753411926]
従来の人工ニューラルネットワーク(ANN)の代替手段としてスパイキングニューラルネットワーク(SNN)が登場
本稿では,AID,DOTA,DIORなどのリモートセンシングベンチマークにおいて,最先端の性能を実現するSpikeSRを提案する。
論文 参考訳(メタデータ) (2025-03-06T09:06:06Z) - Self-STORM: Deep Unrolled Self-Supervised Learning for Super-Resolution Microscopy [55.2480439325792]
我々は、シーケンス固有のモデルベースのオートエンコーダをトレーニングすることで、そのようなデータの必要性を軽減する、深層無学習の自己教師付き学習を導入する。
提案手法は, 監視対象の性能を超過する。
論文 参考訳(メタデータ) (2024-03-25T17:40:32Z) - ELA: Efficient Local Attention for Deep Convolutional Neural Networks [15.976475674061287]
本稿では、簡単な構造で大幅な性能向上を実現するための効率的な局所注意法(ELA)を提案する。
これらの課題を克服するため、我々は1次元畳み込みとグループ正規化機能強化技術の導入を提案する。
ELAはResNet、MobileNet、DeepLabといったディープCNNネットワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2024-03-02T08:06:18Z) - Deep Reinforcement Learning Empowered Activity-Aware Dynamic Health
Monitoring Systems [69.41229290253605]
既存のモニタリングアプローチは、医療機器が複数の健康指標を同時に追跡するという前提で設計されている。
これは、その範囲内で関連するすべての健康値を報告し、過剰なリソース使用と外部データの収集をもたらす可能性があることを意味します。
最適なモニタリング性能とコスト効率のバランスをとるための動的アクティビティ・アウェアヘルスモニタリング戦略(DActAHM)を提案する。
論文 参考訳(メタデータ) (2024-01-19T16:26:35Z) - Understanding Self-attention Mechanism via Dynamical System Perspective [58.024376086269015]
SAM(Self-attention mechanism)は、人工知能の様々な分野で広く使われている。
常微分方程式(ODE)の高精度解における固有剛性現象(SP)は,高性能ニューラルネットワーク(NN)にも広く存在することを示す。
SAMは、本質的なSPを測定するためのモデルの表現能力を高めることができる剛性対応のステップサイズ適応器でもあることを示す。
論文 参考訳(メタデータ) (2023-08-19T08:17:41Z) - Baby Physical Safety Monitoring in Smart Home Using Action Recognition
System [0.0]
本研究では,移動学習手法をConv2D LSTM層と組み合わせて,Kineeticsデータセット上の事前学習したI3Dモデルから特徴を抽出するフレームワークを提案する。
スマートベビールームにおける赤ちゃんの活動を認識し,予測するために,LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。
論文 参考訳(メタデータ) (2022-10-22T19:00:14Z) - 3D Convolutional with Attention for Action Recognition [6.238518976312625]
現在の行動認識法は、計算コストの高いモデルを用いて行動の時間的依存を学習する。
本稿では,3次元畳み込み層,完全連結層,注目層からなる依存関係を学習するためのディープニューラルネットワークアーキテクチャを提案する。
提案手法はまず3D-CNNを用いて行動の空間的特徴と時間的特徴を学習し,その後,注意時間機構によってモデルが本質的な特徴に注意を向けることを支援する。
論文 参考訳(メタデータ) (2022-06-05T15:12:57Z) - A Spatio-Temporal Multilayer Perceptron for Gesture Recognition [70.34489104710366]
自律走行車におけるジェスチャー認識のための多層状態重み付きパーセプトロンを提案する。
提案手法の有望な性能を示すため,TCGおよびDrive&Actデータセットの評価を行った。
私たちは、そのリアルタイム能力と安定した実行を示すために、モデルを自動運転車にデプロイします。
論文 参考訳(メタデータ) (2022-04-25T08:42:47Z) - Object Tracking through Residual and Dense LSTMs [67.98948222599849]
LSTM(Long Short-Term Memory)リカレントニューラルネットワークに基づくディープラーニングベースのトラッカーが、強力な代替手段として登場した。
DenseLSTMはResidualおよびRegular LSTMより優れ、ニュアンセに対する高いレジリエンスを提供する。
ケーススタディは、他のトラッカーの堅牢性を高めるために残差ベースRNNの採用を支援する。
論文 参考訳(メタデータ) (2020-06-22T08:20:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。