論文の概要: Efficient Calisthenics Skills Classification through Foreground Instance Selection and Depth Estimation
- arxiv url: http://arxiv.org/abs/2507.12292v1
- Date: Wed, 16 Jul 2025 14:44:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.435545
- Title: Efficient Calisthenics Skills Classification through Foreground Instance Selection and Depth Estimation
- Title(参考訳): 前景検体選択と深さ推定による効率的な検体分類
- Authors: Antonio Finocchiaro, Giovanni Maria Farinella, Antonino Furnari,
- Abstract要約: キャリシニックスキル分類(Calisthenics skills classification)は、アスリートが画像から行うスキルを推定し、自動パフォーマンス評価とパーソナライズされた分析を可能にするコンピュータビジョンタスクである。
従来の算術的スキル認識法は、画像から骨格データの位置を決定するポーズ推定法に基づいており、後に分類アルゴリズムに入力され、実行されたスキルを推測する。
本研究は,深度推定とアスリートのパッチ検索を利用して,計算コストの高い人体ポーズ推定モジュールを避けるキャリシクススキル認識への直接的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 13.99137623722021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Calisthenics skill classification is the computer vision task of inferring the skill performed by an athlete from images, enabling automatic performance assessment and personalized analytics. Traditional methods for calisthenics skill recognition are based on pose estimation methods to determine the position of skeletal data from images, which is later fed to a classification algorithm to infer the performed skill. Despite the progress in human pose estimation algorithms, they still involve high computational costs, long inference times, and complex setups, which limit the applicability of such approaches in real-time applications or mobile devices. This work proposes a direct approach to calisthenics skill recognition, which leverages depth estimation and athlete patch retrieval to avoid the computationally expensive human pose estimation module. Using Depth Anything V2 for depth estimation and YOLOv10 for athlete localization, we segment the subject from the background rather than relying on traditional pose estimation techniques. This strategy increases efficiency, reduces inference time, and improves classification accuracy. Our approach significantly outperforms skeleton-based methods, achieving 38.3x faster inference with RGB image patches and improved classification accuracy with depth patches (0.837 vs. 0.815). Beyond these performance gains, the modular design of our pipeline allows for flexible replacement of components, enabling future enhancements and adaptation to real-world applications.
- Abstract(参考訳): キャリシニックスキル分類(Calisthenics skills classification)は、アスリートが画像から行うスキルを推定し、自動パフォーマンス評価とパーソナライズされた分析を可能にするコンピュータビジョンタスクである。
従来の算術的スキル認識法は、画像から骨格データの位置を決定するポーズ推定法に基づいており、後に分類アルゴリズムに入力され、実行されたスキルを推測する。
人間のポーズ推定アルゴリズムの進歩にもかかわらず、それらには高い計算コスト、長い推論時間、複雑なセットアップが含まれており、これはリアルタイムアプリケーションやモバイルデバイスにおけるそのようなアプローチの適用性を制限している。
本研究は,深度推定とアスリートのパッチ検索を利用して,計算コストの高い人体ポーズ推定モジュールを避けるキャラシクススキル認識への直接的なアプローチを提案する。
深度推定にDepth Anything V2,アスリートのローカライゼーションにYOLOv10を用い,従来のポーズ推定手法に頼らず,背景から対象を分割する。
この戦略は効率を高め、推論時間を短縮し、分類精度を向上させる。
RGB画像パッチによる推定は38.3倍,深度パッチによる分類精度は0.837対0.815)向上した。
このようなパフォーマンス向上に加えて、当社のパイプラインのモジュール設計によって、コンポーネントのフレキシブルな置き換えが可能になり、将来的な拡張と現実のアプリケーションへの適応が可能になります。
関連論文リスト
- Multi-Grained Feature Pruning for Video-Based Human Pose Estimation [19.297490509277463]
人間のポーズ推定のための新しいマルチスケール・解像度・フレームワークを提案する。
我々は,重要な意味情報を提供するトークンを識別するために,密度クラスタリング手法を用いる。
提案手法は,ベースラインに比べて推論速度が93.8%向上した。
論文 参考訳(メタデータ) (2025-03-07T12:14:51Z) - Efficient Human Pose Estimation: Leveraging Advanced Techniques with MediaPipe [5.439359582541082]
本研究では,MediaPipeフレームワークを用いた人間のポーズ推定の大幅な向上について述べる。
この研究は精度、計算効率、リアルタイム処理能力の改善に焦点を当てている。
この進歩は、拡張現実、スポーツ分析、ヘルスケアに幅広く応用されている。
論文 参考訳(メタデータ) (2024-06-21T21:00:45Z) - Modeling of learning curves with applications to pos tagging [0.27624021966289597]
トレーニングベース全体の学習曲線の進化を推定するアルゴリズムを導入する。
学習手法とは無関係に,所望のタイミングで探索値を反復的に近似する。
本提案は, 作業仮説に関して正式に正しいことを証明し, 信頼性の高い近接条件を含む。
論文 参考訳(メタデータ) (2024-02-04T15:00:52Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - OSSID: Online Self-Supervised Instance Detection by (and for) Pose
Estimation [17.78557307620686]
多くのロボット操作アルゴリズムにはリアルタイムなオブジェクトポーズ推定が必要である。
高速検出アルゴリズムの訓練を自己監督するために、スローゼロショットポーズ推定器を利用するOSSIDフレームワークを提案する。
この自己教師型トレーニングは,既存のゼロショット検出手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-01-18T20:55:56Z) - Dynamic Iterative Refinement for Efficient 3D Hand Pose Estimation [87.54604263202941]
本稿では,従来の推定値の修正に部分的レイヤを反復的に活用する,小さなディープニューラルネットワークを提案する。
学習したゲーティング基準を用いて、ウェイトシェアリングループから抜け出すかどうかを判断し、モデルにサンプルごとの適応を可能にする。
提案手法は,広く使用されているベンチマークの精度と効率の両面から,最先端の2D/3Dハンドポーズ推定手法より一貫して優れている。
論文 参考訳(メタデータ) (2021-11-11T23:31:34Z) - Layer Pruning on Demand with Intermediate CTC [50.509073206630994]
我々はコネクショニスト時間分類(CTC)に基づくASRの訓練と刈り取り方法を提案する。
本稿では,Transformer-CTCモデルをオンデマンドで様々な深さでプルーニングできることを示し,GPU上でのリアルタイム係数を0.005から0.002に改善した。
論文 参考訳(メタデータ) (2021-06-17T02:40:18Z) - An Adaptive Framework for Learning Unsupervised Depth Completion [59.17364202590475]
カラー画像から高密度深度マップとそれに伴うスパース深度測定を推定する手法を提案する。
正規化とコビジュアライゼーションは、モデルの適合度とデータによって関連付けられており、単一のフレームワークに統合可能であることを示す。
論文 参考訳(メタデータ) (2021-06-06T02:27:55Z) - SIMPLE: SIngle-network with Mimicking and Point Learning for Bottom-up
Human Pose Estimation [81.03485688525133]
Single-network with Mimicking and Point Learning for Bottom-up Human Pose Estimation (SIMPLE) を提案する。
具体的には、トレーニングプロセスにおいて、SIMPLEが高性能なトップダウンパイプラインからのポーズ知識を模倣できるようにする。
さらに、SIMPLEは人間検出とポーズ推定を統一的なポイントラーニングフレームワークとして定式化し、単一ネットワークで相互に補完する。
論文 参考訳(メタデータ) (2021-04-06T13:12:51Z) - Fast Uncertainty Quantification for Deep Object Pose Estimation [91.09217713805337]
深層学習に基づくオブジェクトポーズ推定は、しばしば信頼できない、自信過剰である。
本研究では,6-DoFオブジェクトのポーズ推定のための,シンプルで効率的かつプラグアンドプレイなUQ手法を提案する。
論文 参考訳(メタデータ) (2020-11-16T06:51:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。