論文の概要: Integrating Skeleton Based Representations for Robust Yoga Pose Classification Using Deep Learning Models
- arxiv url: http://arxiv.org/abs/2512.00572v1
- Date: Sat, 29 Nov 2025 18:00:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.302572
- Title: Integrating Skeleton Based Representations for Robust Yoga Pose Classification Using Deep Learning Models
- Title(参考訳): 深層学習モデルを用いたロバストヨガ詩分類のための骨格に基づく表現の統合
- Authors: Mohammed Mohiuddin, Syed Mohammod Minhaz Hossain, Sumaiya Khanam, Prionkar Barua, Aparup Barua, MD Tamim Hossain,
- Abstract要約: 既存のデータセットの制限に対処する、キュレートされたデータセット「Yoga-16」を導入する。
3つの入力モダリティ(直接画像,MediaPipe Poseスケルトン画像,YOLOv8 Poseスケルトン画像)を用いて3つのディープラーニングアーキテクチャ(VGG16, ResNet50, Xception)を体系的に評価した。
実験により、骨格ベースの表現は生画像入力より優れており、VGG16とMediaPipe Poseの骨格入力で96.09%の精度で達成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Yoga is a popular form of exercise worldwide due to its spiritual and physical health benefits, but incorrect postures can lead to injuries. Automated yoga pose classification has therefore gained importance to reduce reliance on expert practitioners. While human pose keypoint extraction models have shown high potential in action recognition, systematic benchmarking for yoga pose recognition remains limited, as prior works often focus solely on raw images or a single pose extraction model. In this study, we introduce a curated dataset, 'Yoga-16', which addresses limitations of existing datasets, and systematically evaluate three deep learning architectures (VGG16, ResNet50, and Xception) using three input modalities (direct images, MediaPipe Pose skeleton images, and YOLOv8 Pose skeleton images). Our experiments demonstrate that skeleton-based representations outperform raw image inputs, with the highest accuracy of 96.09% achieved by VGG16 with MediaPipe Pose skeleton input. Additionally, we provide interpretability analysis using Grad-CAM, offering insights into model decision-making for yoga pose classification with cross validation analysis.
- Abstract(参考訳): ヨガは精神的、身体的な健康上の利点から世界中で人気のある運動形態であるが、不適切な姿勢は怪我につながる可能性がある。
そのため、専門家への依存を減らすために、自動ヨガポーズ分類が重要になっている。
人間のポーズキーポイント抽出モデルは行動認識において高い可能性を示しているが、ヨガポーズ認識のための体系的なベンチマークは依然として限られている。
本研究では,既存のデータセットの制限に対処し,3つの入力モダリティ(直接画像,MediaPipe Poseスケルトン画像,YOLOv8 Poseスケルトン画像)を用いて3つのディープラーニングアーキテクチャ(VGG16,ResNet50,Xception)を体系的に評価する。
以上の結果から, 生画像入力の精度はVGG16で96.09%, MediaPipe Poseでは96.09%であった。
また,Grad-CAMを用いた解釈可能性分析を行い,クロスバリデーション分析を用いたヨガポーズ分類のためのモデル決定に関する洞察を提供する。
関連論文リスト
- Exploring the Use of Contrastive Language-Image Pre-Training for Human Posture Classification: Insights from Yoga Pose Analysis [0.6524460254566905]
本研究では,人間の姿勢の分類におけるコントラスト言語-画像事前訓練(CLIP)の有効性を評価することを目的とする。
82のクラスを持つ15,301の画像(実画像と合成画像)に転写学習を適用することで、有望な結果が得られた。
3826イメージでテストされた微調整のCLIPモデルは、85%以上の精度を実現している。
論文 参考訳(メタデータ) (2025-01-13T11:20:44Z) - 3DYoga90: A Hierarchical Video Dataset for Yoga Pose Understanding [0.0]
3DYoga901は3レベルのラベル階層で構成されている。
我々のデータセットには、慎重にキュレートされたRGBヨガポーズビデオと3Dスケルトンシーケンスが含まれています。
論文 参考訳(メタデータ) (2023-10-16T07:15:31Z) - Understanding Pose and Appearance Disentanglement in 3D Human Pose
Estimation [72.50214227616728]
ポーズ情報から外見情報を引き離すために,自己教師型で画像表現を学習する手法がいくつか提案されている。
我々は,多種多様な画像合成実験を通じて,自己教師ネットワークの観点から,ゆがみについて検討する。
我々は,対象の自然な外見変化を生起することに焦点を当てた敵対的戦略を設計し,その反対に,絡み合ったネットワークが堅牢であることを期待している。
論文 参考訳(メタデータ) (2023-09-20T22:22:21Z) - An Efficient Deep Convolutional Neural Network Model For Yoga Pose
Recognition Using Single Images [2.6717276381722033]
本稿では,RGB画像からヨガを認識可能な,効率的な深部畳み込みニューラルネットワーク(CNN)モデルYPoseを提案する。
提案したモデルはYoga-82データセットでテストされている。
論文 参考訳(メタデータ) (2023-06-27T19:34:46Z) - LatentHuman: Shape-and-Pose Disentangled Latent Representation for Human
Bodies [78.17425779503047]
本稿では,人体に対する新しい暗黙の表現法を提案する。
完全に微分可能で、非交叉形状で最適化可能であり、潜在空間を映し出す。
我々のモデルは、よく設計された損失を伴う、水密でない生データを直接訓練し、微調整することができる。
論文 参考訳(メタデータ) (2021-11-30T04:10:57Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - FixMyPose: Pose Correctional Captioning and Retrieval [67.20888060019028]
本稿では,自動ポーズ修正システムに対応する新しいキャプションデータセットfixmyposeを提案する。
我々は「現在の」ポーズを「ターゲット」ポーズのように見えるように修正する記述を収集する。
MLバイアスを避けるため、さまざまな階層を持つキャラクタ間のバランスを維持します。
論文 参考訳(メタデータ) (2021-04-04T21:45:44Z) - Yoga-82: A New Dataset for Fine-grained Classification of Human Poses [46.319423568714505]
82クラスからなる大規模ヨガポーズ認識のためのデータセットYoga-82を提案する。
Yoga-82は、細かいアノテーションができない複雑なポーズで構成されている。
データセットには、体の位置、体の位置の変化、実際のポーズ名を含む3レベル階層が含まれている。
論文 参考訳(メタデータ) (2020-04-22T01:43:44Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。