論文の概要: FLEX: A Large-Scale Multi-Modal Multi-Action Dataset for Fitness Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2506.03198v1
- Date: Mon, 02 Jun 2025 01:44:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:13.939621
- Title: FLEX: A Large-Scale Multi-Modal Multi-Action Dataset for Fitness Action Quality Assessment
- Title(参考訳): FLEX: フィットネス行動品質評価のための大規模マルチモーダルマルチアクションデータセット
- Authors: Hao Yin, Lijun Gu, Paritosh Parmar, Lin Xu, Tianxiao Guo, Weiwei Fu, Yang Zhang, Tianyou Zheng,
- Abstract要約: AQA(Action Quality Assessment)は、人間の行動の質を定量化し、フィードバックを提供する技術である。
本研究では,表面筋電図(SEMG)信号をAQAに組み込んだ最初のマルチモーダル・マルチアクション・大規模データセットであるFLEXデータセットを提案する。
- 参考スコア(独自算出の注目度): 11.028777317831983
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the increasing awareness of health and the growing desire for aesthetic physique, fitness has become a prevailing trend. However, the potential risks associated with fitness training, especially with weight-loaded fitness actions, cannot be overlooked. Action Quality Assessment (AQA), a technology that quantifies the quality of human action and provides feedback, holds the potential to assist fitness enthusiasts of varying skill levels in achieving better training outcomes. Nevertheless, current AQA methodologies and datasets are limited to single-view competitive sports scenarios and RGB modality and lack professional assessment and guidance of fitness actions. To address this gap, we propose the FLEX dataset, the first multi-modal, multi-action, large-scale dataset that incorporates surface electromyography (sEMG) signals into AQA. FLEX utilizes high-precision MoCap to collect 20 different weight-loaded actions performed by 38 subjects across 3 different skill levels for 10 repetitions each, containing 5 different views of the RGB video, 3D pose, sEMG, and physiological information. Additionally, FLEX incorporates knowledge graphs into AQA, constructing annotation rules in the form of penalty functions that map weight-loaded actions, action keysteps, error types, and feedback. We conducted various baseline methodologies on FLEX, demonstrating that multimodal data, multiview data, and fine-grained annotations significantly enhance model performance. FLEX not only advances AQA methodologies and datasets towards multi-modal and multi-action scenarios but also fosters the integration of artificial intelligence within the fitness domain. Dataset and code are available at https://haoyin116.github.io/FLEX_Dataset.
- Abstract(参考訳): 健康意識の高まりと美学への欲求の高まりにより、フィットネスが主流となっている。
しかし、フィットネストレーニングに関連する潜在的なリスク、特に重み付けされたフィットネスアクションは見過ごせない。
人間の行動の質を定量化しフィードバックを提供する技術である行動品質評価(AQA)は、より良いトレーニング結果を達成するために、様々なスキルレベルのフィットネス愛好家を支援する可能性を秘めている。
しかしながら、現在のAQAの方法論とデータセットは、シングルビューの競技シナリオとRGBのモダリティに限られており、フィットネスアクションの専門的な評価とガイダンスが欠如している。
このギャップに対処するために、表面筋電図(sEMG)信号をAQAに組み込んだ最初のマルチモーダル・マルチアクション・大規模データセットであるFLEXデータセットを提案する。
FLEXは高精度のMoCapを使用して、38人の被験者が行う20の異なる重み付けアクションを3つの異なるスキルレベルに分けて10回繰り返し、RGBビデオ、3Dポーズ、sEMG、生理情報の5つの異なるビューを含む。
さらに、FLEXは知識グラフをAQAに組み込んで、重み付けされたアクション、アクションキーステップ、エラータイプ、フィードバックをマッピングするペナルティ関数の形式でアノテーションルールを構築する。
FLEX上で様々なベースライン手法を行い,マルチモーダルデータ,マルチビューデータ,微粒化アノテーションがモデル性能を著しく向上することを示した。
FLEXは、AQA方法論とデータセットをマルチモーダルおよびマルチアクションシナリオに進化させるだけでなく、フィットネス領域における人工知能の統合を促進する。
データセットとコードはhttps://haoyin116.github.io/FLEX_Datasetで公開されている。
関連論文リスト
- GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Towards Activated Muscle Group Estimation in the Wild [44.7050439903772]
野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。
我々は135の異なる活動と20のラベル付き筋群を持つ15Kビデオクリップを特徴とする筋マップデータセットを提供する。
このデータセットはYouTubeのビデオで構築されており、特にハイインテンシティ・インターバルトレーニング(HIIT)をターゲットとしている。
論文 参考訳(メタデータ) (2023-03-02T04:12:53Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。