Fugu-MT 論文翻訳(概要): Real-Time Fitness Exercise Classification and Counting from Video Frames

論文の概要: Real-Time Fitness Exercise Classification and Counting from Video Frames

arxiv url: http://arxiv.org/abs/2411.11548v1
Date: Mon, 18 Nov 2024 13:06:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:48.722132
Title: Real-Time Fitness Exercise Classification and Counting from Video Frames
Title（参考訳）: ビデオフレームからのリアルタイムフィットネス運動分類と計数
Authors: Riccardo Riccio,
Abstract要約: 本稿では,Bidirectional Long Short-Term Memory (BiLSTM) ニューラルネットワークを用いた実時間運動分類手法を提案する。このモデルは、視点、ユーザーの位置、身体の違いの変化に適応し、一般化を改善する。手動のエクササイズ選択なしでリアルタイムなエクササイズ分類と繰り返しカウントを提供するWebアプリケーションに統合される。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces a novel method for real-time exercise classification using a Bidirectional Long Short-Term Memory (BiLSTM) neural network. Existing exercise recognition approaches often rely on synthetic datasets, raw coordinate inputs sensitive to user and camera variations, and fail to fully exploit the temporal dependencies in exercise movements. These issues limit their generalizability and robustness in real-world conditions, where lighting, camera angles, and user body types vary. To address these challenges, we propose a BiLSTM-based model that leverages invariant features, such as joint angles, alongside raw coordinates. By using both angles and (x, y, z) coordinates, the model adapts to changes in perspective, user positioning, and body differences, improving generalization. Training on 30-frame sequences enables the BiLSTM to capture the temporal context of exercises and recognize patterns evolving over time. We compiled a dataset combining synthetic data from the InfiniteRep dataset and real-world videos from Kaggle and other sources. This dataset includes four common exercises: squat, push-up, shoulder press, and bicep curl. The model was trained and validated on these diverse datasets, achieving an accuracy of over 99% on the test set. To assess generalizability, the model was tested on 2 separate test sets representative of typical usage conditions. Comparisons with the previous approach from the literature are present in the result section showing that the proposed model is the best-performing one. The classifier is integrated into a web application providing real-time exercise classification and repetition counting without manual exercise selection. Demo and datasets are available at the following GitHub Repository: https://github.com/RiccardoRiccio/Fitness-AI-Trainer-With-Automatic-Exercise-Recognition-and-Countin g.
Abstract（参考訳）: 本稿では,Bidirectional Long Short-Term Memory (BiLSTM) ニューラルネットワークを用いた実時間運動分類手法を提案する。既存の運動認識アプローチは、しばしば合成データセット、ユーザーやカメラのバリエーションに敏感な生座標入力に依存し、運動運動における時間的依存を完全に活用することができない。これらの問題は、照明、カメラアングル、ユーザーボディタイプが異なる現実世界の状況において、その一般化性と堅牢性を制限する。これらの課題に対処するために, 原座標とともに, 関節角などの不変特性を利用するBiLSTMモデルを提案する。角度と (x, y, z) 座標の両方を用いることで、モデルは視点、ユーザ位置、身体差の変化に適応し、一般化を改善する。 30フレームシーケンスのトレーニングにより、BiLSTMはエクササイズの時間的コンテキストをキャプチャし、時間とともに進化するパターンを認識することができる。 InfiniteRepデータセットからの合成データと、Kaggleや他のソースからの実世界のビデオを組み合わせたデータセットをコンパイルした。このデータセットには、スクワット、プッシュアップ、ショルダープレス、バイセップカールの4つの一般的なエクササイズが含まれている。モデルはこれらの多様なデータセットでトレーニングされ、検証され、テストセットで99%以上の精度が達成された。一般化性を評価するため, 典型的な使用条件を表す2つのテストセットを用いて実験を行った。文献からのアプローチとの比較では,提案手法が最良性能であることを示す。この分類器は、手動の運動選択なしでリアルタイムな運動分類と反復カウントを提供するWebアプリケーションに統合される。デモとデータセットは以下のGitHub Repositoryで利用できる。

関連論文リスト

Test-Time Alignment via Hypothesis Reweighting [56.71167047381817]
大規模な事前訓練されたモデルは、しばしば未指定のタスクで苦労する。テストタイムのユーザ意図にモデルを整合させるという課題に対処する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-11T23:02:26Z)
SONNET: Enhancing Time Delay Estimation by Leveraging Simulated Audio [17.811771707446926]
学習に基づく手法は、合成データにもとづいても、新しい実世界のデータに基づいてGCC-PHATを著しく上回り得ることを示す。トレーニングされたモデルであるSONNETは、リアルタイムに実行可能で、多くの実データアプリケーションのために、最初から新しいデータに取り組んでいます。
論文参考訳（メタデータ） (2024-11-20T10:23:21Z)
Continual Learning for Multimodal Data Fusion of a Soft Gripper [1.0589208420411014]
あるデータモダリティに基づいてトレーニングされたモデルは、異なるモダリティでテストした場合、しばしば失敗する。異なるデータモダリティを漸進的に学習できる連続学習アルゴリズムを提案する。我々は、アルゴリズムの有効性を、挑戦的なカスタムマルチモーダルデータセット上で評価する。
論文参考訳（メタデータ） (2024-09-20T09:53:27Z)
Adapting Vision-Language Models to Open Classes via Test-Time Prompt Tuning [50.26965628047682]
学習済みのモデルをオープンクラスに適応させることは、機械学習において難しい問題である。本稿では,両者の利点を組み合わせたテスト時プロンプトチューニング手法を提案する。提案手法は,基本クラスと新クラスの両方を考慮し,すべての比較手法を平均的に上回る結果を得た。
論文参考訳（メタデータ） (2024-08-29T12:34:01Z)
PARSAC: Accelerating Robust Multi-Model Fitting with Parallel Sample Consensus [26.366299016589256]
雑音データから幾何モデルの複数事例を頑健に推定するリアルタイム手法を提案する。ニューラルネットワークは、入力データを潜在的モデルインスタンスを表すクラスタに分割する。我々は、画像当たり5ミリ秒の推論時間を持つ複数の確立されたデータセットと同様に、これらに対して最先端のパフォーマンスを実証する。
論文参考訳（メタデータ） (2024-01-26T14:54:56Z)
Adversarial Augmentation Training Makes Action Recognition Models More Robust to Realistic Video Distribution Shifts [13.752169303624147]
アクション認識モデルは、トレーニングデータとテストデータの間の自然な分散シフトに直面したとき、堅牢性を欠くことが多い。そこで本研究では,そのような分布格差に対するモデルレジリエンスを評価するための2つの新しい評価手法を提案する。提案手法は,3つの動作認識モデルにまたがるベースラインよりも優れた性能を示す。
論文参考訳（メタデータ） (2024-01-21T05:50:39Z)
Domain Adaptive Synapse Detection with Weak Point Annotations [63.97144211520869]
弱点アノテーションを用いたドメイン適応型シナプス検出のためのフレームワークであるAdaSynを提案する。 I SBI 2023のWASPSYNチャレンジでは、我々の手法が第1位にランクインした。
論文参考訳（メタデータ） (2023-08-31T05:05:53Z)
Transform-Equivariant Consistency Learning for Temporal Sentence Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文参考訳（メタデータ） (2023-05-06T19:29:28Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Learning from Temporal Spatial Cubism for Cross-Dataset Skeleton-based Action Recognition [88.34182299496074]
アクションラベルはソースデータセットでのみ利用可能だが、トレーニング段階のターゲットデータセットでは利用できない。我々は,2つの骨格に基づく行動データセット間の領域シフトを低減するために,自己スーパービジョン方式を利用する。時間的セグメントや人体部分のセグメンテーションとパーフォーミングにより、我々は2つの自己教師あり学習分類タスクを設計する。
論文参考訳（メタデータ） (2022-07-17T07:05:39Z)
HighlightMe: Detecting Highlights from Human-Centric Videos [52.84233165201391]
我々は,人間中心のビデオからハイライト可能な抜粋を検出するために,ドメインとユーザに依存しないアプローチを提案する。本研究では,時空間グラフ畳み込みを用いたオートエンコーダネットワークを用いて,人間の活動やインタラクションを検出する。我々は,最先端の手法に比べて,人手によるハイライトのマッチングの平均精度が4～12%向上したことを観察した。
論文参考訳（メタデータ） (2021-10-05T01:18:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。