論文の概要: FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment
- arxiv url: http://arxiv.org/abs/2506.03198v3
- Date: Fri, 17 Oct 2025 03:26:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 15:58:54.374243
- Title: FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment
- Title(参考訳): FLEX: フィットネス行動品質評価のための構造化表現学習のための大規模マルチモーダル・マルチビューデータセット
- Authors: Hao Yin, Lijun Gu, Paritosh Parmar, Lin Xu, Tianxiao Guo, Weiwei Fu, Yang Zhang, Tianyou Zheng,
- Abstract要約: アクション品質アセスメント(AQA)は、体育トレーニングにおけるエラーを検出する大きな可能性を持っている。
既存のAQAデータセットは、シングルビューの競技スポーツとRGBビデオに限られている。
本稿では,フィットネスAQAのための大規模マルチモーダルマルチビューデータセットFLEXを紹介する。
- 参考スコア(独自算出の注目度): 18.287155608368938
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Action Quality Assessment (AQA) -- the task of quantifying how well an action is performed -- has great potential for detecting errors in gym weight training, where accurate feedback is critical to prevent injuries and maximize gains. Existing AQA datasets, however, are limited to single-view competitive sports and RGB video, lacking multimodal signals and professional assessment of fitness actions. We introduce FLEX, the first large-scale, multimodal, multiview dataset for fitness AQA that incorporates surface electromyography (sEMG). FLEX contains over 7,500 multiview recordings of 20 weight-loaded exercises performed by 38 subjects of diverse skill levels, with synchronized RGB video, 3D pose, sEMG, and physiological signals. Expert annotations are organized into a Fitness Knowledge Graph (FKG) linking actions, key steps, error types, and feedback, supporting a compositional scoring function for interpretable quality assessment. FLEX enables multimodal fusion, cross-modal prediction -- including the novel Video$\rightarrow$EMG task -- and biomechanically oriented representation learning. Building on the FKG, we further introduce FLEX-VideoQA, a structured question-answering benchmark with hierarchical queries that drive cross-modal reasoning in vision-language models. Baseline experiments demonstrate that multimodal inputs, multiview video, and fine-grained annotations significantly enhance AQA performance. FLEX thus advances AQA toward richer multimodal settings and provides a foundation for AI-powered fitness assessment and coaching. Dataset and code are available at \href{https://github.com/HaoYin116/FLEX}{https://github.com/HaoYin116/FLEX}. Link to Project \href{https://haoyin116.github.io/FLEX_Dataset}{page}.
- Abstract(参考訳): アクション・クオリティ・アセスメント(AQA: Action Quality Assessment)は、体育館の体重トレーニングにおける誤差を検知する大きな可能性を秘めている。
しかし、既存のAQAデータセットは、シングルビューの競技スポーツとRGBビデオに限られており、マルチモーダル信号の欠如とフィットネスアクションの専門的評価が欠けている。
我々は、表面筋電図(sEMG)を組み込んだフィットネスAQAのための、最初の大規模マルチモーダルマルチビューデータセットFLEXを紹介する。
FLEXには7500以上のマルチビュー記録があり、38人の被験者が様々なスキルレベルで実施し、RGBビデオ、3Dポーズ、sEMG、生理的信号が同期されている。
エキスパートアノテーションは、アクション、キーステップ、エラータイプ、フィードバックをリンクするFKG(Fitness Knowledge Graph)に編成され、解釈可能な品質評価のための合成スコアリング機能をサポートする。
FLEXは、マルチモーダル融合、ビデオ$\rightarrow$EMGタスクを含むクロスモーダル予測、バイオメカニカル指向の表現学習を可能にする。
FKG上に構築されたFLEX-VideoQAは階層的なクエリを持つ構造化された質問応答ベンチマークであり、視覚言語モデルにおけるクロスモーダル推論を駆動する。
ベースライン実験では、マルチモーダルインプット、マルチビュービデオ、微粒なアノテーションがAQA性能を大幅に向上させることを示した。
FLEXは、よりリッチなマルチモーダル設定に向けてAQAを前進させ、AIによるフィットネスアセスメントとコーチングの基礎を提供する。
データセットとコードは \href{https://github.com/HaoYin116/FLEX}{https://github.com/HaoYin116/FLEX} で公開されている。
Project \href{https://haoyin116.github.io/FLEX_Dataset}{page} へのリンク。
関連論文リスト
- Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。
分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。
最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文 参考訳(メタデータ) (2025-04-28T09:00:04Z) - GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。
大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。
GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文 参考訳(メタデータ) (2025-03-19T05:56:52Z) - M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。
モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文 参考訳(メタデータ) (2025-02-21T03:05:45Z) - SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。
現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。
本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文 参考訳(メタデータ) (2025-01-16T18:59:46Z) - Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。
現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。
階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文 参考訳(メタデータ) (2025-01-07T10:20:16Z) - MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。
本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。
本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文 参考訳(メタデータ) (2024-06-06T08:42:36Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。
PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。
提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-27T14:39:41Z) - Towards Activated Muscle Group Estimation in the Wild [44.7050439903772]
野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。
我々は135の異なる活動と20のラベル付き筋群を持つ15Kビデオクリップを特徴とする筋マップデータセットを提供する。
このデータセットはYouTubeのビデオで構築されており、特にハイインテンシティ・インターバルトレーニング(HIIT)をターゲットとしている。
論文 参考訳(メタデータ) (2023-03-02T04:12:53Z) - FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。
FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文 参考訳(メタデータ) (2022-12-09T02:33:33Z) - Towards All-in-one Pre-training via Maximizing Multi-modal Mutual
Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。
提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-11-17T18:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。