論文の概要: (LiFT) Lightweight Fitness Transformer: A language-vision model for Remote Monitoring of Physical Training
- arxiv url: http://arxiv.org/abs/2506.06480v1
- Date: Fri, 06 Jun 2025 19:07:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.288793
- Title: (LiFT) Lightweight Fitness Transformer: A language-vision model for Remote Monitoring of Physical Training
- Title(参考訳): (LiFT)軽量体力変換器:身体トレーニングの遠隔モニタリングのための言語ビジョンモデル
- Authors: A. Postlmayr, P. Cosman, S. Dey,
- Abstract要約: 本稿では,RGBスマートフォンカメラのみを用いたエクササイズの遠隔監視を可能にするフィットネストラッキングシステムを提案する。
我々のモデルは76.5%の精度で運動を検出し、RGBビデオのみを使用して85.3%の精度で反復を数えることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We introduce a fitness tracking system that enables remote monitoring for exercises using only a RGB smartphone camera, making fitness tracking more private, scalable, and cost effective. Although prior work explored automated exercise supervision, existing models are either too limited in exercise variety or too complex for real-world deployment. Prior approaches typically focus on a small set of exercises and fail to generalize across diverse movements. In contrast, we develop a robust, multitask motion analysis model capable of performing exercise detection and repetition counting across hundreds of exercises, a scale far beyond previous methods. We overcome previous data limitations by assembling a large-scale fitness dataset, Olympia covering more than 1,900 exercises. To our knowledge, our vision-language model is the first that can perform multiple tasks on skeletal fitness data. On Olympia, our model can detect exercises with 76.5% accuracy and count repetitions with 85.3% off-by-one accuracy, using only RGB video. By presenting a single vision-language transformer model for both exercise identification and rep counting, we take a significant step toward democratizing AI-powered fitness tracking.
- Abstract(参考訳): 本稿では,RGBスマートフォンカメラのみを用いたエクササイズの遠隔監視を可能にするフィットネストラッキングシステムを導入し,フィットネストラッキングをよりプライベートでスケーラブルで費用対効果の高いものにする。
以前の作業では自動エクササイズの監視が検討されていたが、既存のモデルではエクササイズに制限が多すぎるか、現実の展開には複雑すぎるかのいずれかであった。
従来のアプローチは、通常、小さなエクササイズに焦点を合わせ、多様な動きをまたいだ一般化に失敗する。
対照的に、何百ものエクササイズにまたがるエクササイズ検出と反復を実行できる頑健なマルチタスク動作解析モデルを開発した。
我々は、Olympiaという大規模なフィットネスデータセットを1,900以上のエクササイズに組み込むことで、これまでのデータ制限を克服しました。
我々の知る限り、私たちの視覚言語モデルは骨格フィットネスデータ上で複数のタスクを実行できる最初のものです。
オリンピアでは、RGBビデオのみを使用して、76.5%の精度で運動を検出し、85.3%の精度で反復を数えることができる。
運動識別とレコメンデーションカウントの両方のための単一の視覚言語変換モデルを提示することにより、AIによるフィットネストラッキングの民主化に向けて大きな一歩を踏み出した。
関連論文リスト
- Intelligent Repetition Counting for Unseen Exercises: A Few-Shot Learning Approach with Sensor Signals [0.4998632546280975]
本研究は、IMU信号の解析により、運動繰り返しを自動カウントする方法を開発した。
本稿では,深度測定に基づく数点学習手法を用いた反復カウント手法を提案する。
86.8%の確率で、28回の異なるエクササイズで1セットに10回以上の繰り返しを正確に数えることが可能である。
論文 参考訳(メタデータ) (2024-10-01T05:04:40Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - P\=uioio: On-device Real-Time Smartphone-Based Automated Exercise
Repetition Counting System [1.4050836886292868]
本稿では,(1)ポーズ推定,(2)閾値保持,(3)オプティカルフロー,(4)ステートマシン,(5)カウンタの5つのコンポーネントからなるスマートフォンの深層学習に基づくエクササイズカウントシステムを紹介する。
システムはP=uioioと呼ばれるクロスプラットフォームのモバイルアプリケーションを通じて実装され、スマートフォンカメラのみを使用して3つの標準エクササイズ(スクワット、プッシュアップ、プルアップ)をリアルタイムで追跡する。
論文 参考訳(メタデータ) (2023-07-22T01:38:02Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Fast and Robust Video-Based Exercise Classification via Body Pose
Tracking and Scalable Multivariate Time Series Classifiers [13.561233730881279]
本稿では,ビデオを用いたS&C演習の分類の応用について述べる。
そこで本研究では,BodyMTSという手法を用いて,映像を時系列に変換する手法を提案する。
その結果,BodyMTSの平均精度は87%であり,これはヒトドメインの専門家の精度よりも有意に高いことがわかった。
論文 参考訳(メタデータ) (2022-10-02T13:03:38Z) - Muscle Vision: Real Time Keypoint Based Pose Classification of Physical
Exercises [52.77024349608834]
ビデオから外挿された3D人間のポーズ認識は、リアルタイムソフトウェアアプリケーションを可能にするまで進歩した。
本稿では,ライブビデオフィード上で人間のポーズ認識を行う新しい機械学習パイプラインとWebインターフェースを提案する。
論文 参考訳(メタデータ) (2022-03-23T00:55:07Z) - Domain Knowledge-Informed Self-Supervised Representations for Workout
Form Assessment [12.040334568268445]
ラベルのないサンプルから運動特異的表現を学習することを提案する。
特に、ドメイン知識に基づく自己教師型アプローチでは、運動動作の調和運動を利用する。
自己教師型表現は,既成の2次元および3次元の配置推定器よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-28T18:40:02Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。