Fugu-MT 論文翻訳(概要): FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment

論文の概要: FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment

arxiv url: http://arxiv.org/abs/2506.03198v2
Date: Wed, 15 Oct 2025 01:40:34 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-16 15:32:13.628882
Title: FLEX: A Largescale Multimodal, Multiview Dataset for Learning Structured Representations for Fitness Action Quality Assessment
Title（参考訳）: FLEX: フィットネス行動品質評価のための構造化表現学習のための大規模マルチモーダル・マルチビューデータセット
Authors: Hao Yin, Lijun Gu, Paritosh Parmar, Lin Xu, Tianxiao Guo, Weiwei Fu, Yang Zhang, Tianyou Zheng,
Abstract要約: AQA(Action Quality Assessment)は、人間の行動の質を定量化し、フィードバックを提供する技術である。本研究では,表面筋電図(SEMG)信号をAQAに組み込んだ最初のマルチモーダル・マルチアクション・大規模データセットであるFLEXデータセットを提案する。
参考スコア（独自算出の注目度）: 18.287155608368938
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: With the increasing awareness of health and the growing desire for aesthetic physique, fitness has become a prevailing trend. However, the potential risks associated with fitness training, especially with weight-loaded fitness actions, cannot be overlooked. Action Quality Assessment (AQA), a technology that quantifies the quality of human action and provides feedback, holds the potential to assist fitness enthusiasts of varying skill levels in achieving better training outcomes. Nevertheless, current AQA methodologies and datasets are limited to single-view competitive sports scenarios and RGB modality and lack professional assessment and guidance of fitness actions. To address this gap, we propose the FLEX dataset, the first multi-modal, multi-action, large-scale dataset that incorporates surface electromyography (sEMG) signals into AQA. FLEX utilizes high-precision MoCap to collect 20 different weight-loaded actions performed by 38 subjects across 3 different skill levels for 10 repetitions each, containing 5 different views of the RGB video, 3D pose, sEMG, and physiological information. Additionally, FLEX incorporates knowledge graphs into AQA, constructing annotation rules in the form of penalty functions that map weight-loaded actions, action keysteps, error types, and feedback. We conducted various baseline methodologies on FLEX, demonstrating that multimodal data, multiview data, and fine-grained annotations significantly enhance model performance. FLEX not only advances AQA methodologies and datasets towards multi-modal and multi-action scenarios but also fosters the integration of artificial intelligence within the fitness domain. Dataset and code are available at https://haoyin116.github.io/FLEX_Dataset.
Abstract（参考訳）: 健康意識の高まりと美学への欲求の高まりにより、フィットネスが主流となっている。しかし、フィットネストレーニングに関連する潜在的なリスク、特に重み付けされたフィットネスアクションは見過ごせない。人間の行動の質を定量化しフィードバックを提供する技術である行動品質評価(AQA)は、より良いトレーニング結果を達成するために、様々なスキルレベルのフィットネス愛好家を支援する可能性を秘めている。しかしながら、現在のAQAの方法論とデータセットは、シングルビューの競技シナリオとRGBのモダリティに限られており、フィットネスアクションの専門的な評価とガイダンスが欠如している。このギャップに対処するために、表面筋電図(sEMG)信号をAQAに組み込んだ最初のマルチモーダル・マルチアクション・大規模データセットであるFLEXデータセットを提案する。 FLEXは高精度のMoCapを使用して、38人の被験者が行う20の異なる重み付けアクションを3つの異なるスキルレベルに分けて10回繰り返し、RGBビデオ、3Dポーズ、sEMG、生理情報の5つの異なるビューを含む。さらに、FLEXは知識グラフをAQAに組み込んで、重み付けされたアクション、アクションキーステップ、エラータイプ、フィードバックをマッピングするペナルティ関数の形式でアノテーションルールを構築する。 FLEX上で様々なベースライン手法を行い,マルチモーダルデータ,マルチビューデータ,微粒化アノテーションがモデル性能を著しく向上することを示した。 FLEXは、AQA方法論とデータセットをマルチモーダルおよびマルチアクションシナリオに進化させるだけでなく、フィットネス領域における人工知能の統合を促進する。データセットとコードはhttps://haoyin116.github.io/FLEX_Datasetで公開されている。

関連論文リスト

Learning Perceptual Representations for Gaming NR-VQA with Multi-Task FR Signals [11.586349688474753]
ゲームビデオの非参照ビデオ品質評価(NR-VQA)は、制限された人格データセットとユニークなコンテンツ特性のために困難である。本稿では,マルチタスク学習フレームワークであるMTL-VQAについて述べる。
論文参考訳（メタデータ） (2026-02-12T12:56:58Z)
SportR: A Benchmark for Multimodal Large Language Model Reasoning in Sports [21.410115837645318]
SportRは、スポーツインテリジェンスに必要な基本的な理由に基づいてMLLMを訓練し、評価するために設計された最初のマルチスポーツ大規模ベンチマークである。私たちのベンチマークでは,5,017枚の画像と2,101本のビデオのデータセットが提供されている。罰則の決定や戦術の説明など,多段階の推論を必要とする最も先進的なタスクに対して,我々は7,118の高品質な人間による思考の連鎖(Chain of Thought)アノテーションを提供する。
論文参考訳（メタデータ） (2025-11-09T18:55:20Z)
Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文参考訳（メタデータ） (2025-10-08T10:09:47Z)
CVBench: Evaluating Cross-Video Synergies for Complex Multimodal Understanding and Reasoning [11.478276629279526]
CVBenchは,ビデオ間のリレーショナル推論を厳格に評価するために設計された,最初の総合的なベンチマークである。 CVBenchは、クロスビデオオブジェクトアソシエーション、クロスビデオイベントアソシエーション、クロスビデオ複合推論の3層にまたがる1000の質問応答ペアで構成されている。 5つのドメインの異なるビデオクラスタから構築されたこのベンチマークは、ダイナミックな視覚的コンテキストにまたがる情報を合成するモデルに挑戦する。
論文参考訳（メタデータ） (2025-08-27T03:29:35Z)
RAVEN: Query-Guided Representation Alignment for Question Answering over Audio, Video, Embedded Sensors, and Natural Language [1.5599296461516985]
RAVENは、クエリ条件のクロスモーダルゲーティングモジュールであるQuARTをコアとする統一QAアーキテクチャである。 RAVENは、単調な事前トレーニング、クエリ整合融合、不一致指向の微調整を含む3段階のパイプラインを通じてトレーニングされる。実験の結果、RAVENは最先端のマルチモーダル言語モデルと比較して14.5%と8.0%の精度で向上した。
論文参考訳（メタデータ） (2025-05-21T14:33:36Z)
Towards Robust Multimodal Physiological Foundation Models: Handling Arbitrary Missing Modalities [9.785262633953794]
生理オムニ (Phylo Omni) は、マルチモーダルな生理的信号解析の基礎モデルである。分離されたマルチモーダル・トークンーザを訓練し、マスクされた信号の事前訓練を可能にする。最先端のパフォーマンスを達成しつつ、モダリティの欠如に対して強い堅牢性を維持します。
論文参考訳（メタデータ） (2025-04-28T09:00:04Z)
GenM$^3$: Generative Pretrained Multi-path Motion Model for Text Conditional Human Motion Generation [19.2804620329011]
Generative Pretrained Multi-path Motion Model (GenM$3$)は、統合された動き表現を学習するためのフレームワークである。大規模なトレーニングを可能にするため、11の高品質なモーションデータセットを統合し、統合する。 GenM$3$はHumanML3Dベンチマークで0.035の最先端のFIDを実現し、最先端のメソッドを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-03-19T05:56:52Z)
M3-AGIQA: Multimodal, Multi-Round, Multi-Aspect AI-Generated Image Quality Assessment [65.3860007085689]
M3-AGIQAは、AI生成画像のより人間らしく総合的な評価を可能にする包括的なフレームワークである。モデル出力を人間の判断とより密接に整合させることで、M3-AGIQAは堅牢で解釈可能な品質スコアを提供する。
論文参考訳（メタデータ） (2025-02-21T03:05:45Z)
SMPLest-X: Ultimate Scaling for Expressive Human Pose and Shape Estimation [81.36747103102459]
表現的人間のポーズと形状推定(EHPS)は、身体、手、顔の動きを多数の応用で統合する。現在の最先端の手法は、限定されたデータセット上で革新的なアーキテクチャ設計を訓練することに焦点を当てている。本稿では,EHPSのスケールアップが一般基盤モデルのファミリに与える影響について検討する。
論文参考訳（メタデータ） (2025-01-16T18:59:46Z)
Action Quality Assessment via Hierarchical Pose-guided Multi-stage Contrastive Regression [25.657978409890973]
アクションアセスメント(AQA)は、運動性能の自動的、公平な評価を目的としている。現在の手法では、動画を固定フレームに分割することに集中しており、サブアクションの時間的連続性を損なう。階層的なポーズ誘導型多段階コントラスト回帰による行動品質評価手法を提案する。
論文参考訳（メタデータ） (2025-01-07T10:20:16Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
MuJo: Multimodal Joint Feature Space Learning for Human Activity Recognition [2.7532797256542403]
HAR(Human Activity Recognition)は、人工知能における長年の問題であり、幅広い分野で応用されている。本研究では,HAR 性能を向上させるため,総合的な Fitness Multimodal Activity データセット (FiMAD) を導入する。本研究では,MM-Fit,myoGym, MotionSense, MHEALTHなどの実HARデータセットの性能向上を図る。
論文参考訳（メタデータ） (2024-06-06T08:42:36Z)
Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文参考訳（メタデータ） (2024-05-29T06:09:34Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
LOGO: A Long-Form Video Dataset for Group Action Quality Assessment [63.53109605625047]
LOGOと呼ばれるアクション品質評価のための多人数長ビデオデータセットを構築した。私たちのデータセットには、26のアーティスティックスイミングイベントの200の動画と、各サンプルに8人のアスリートと、平均204.2秒の時間が含まれています。アノテーションの豊かさに関して、LOGOには、複数のアスリートのグループ情報とアクション手順に関する詳細なアノテーションを記述するためのフォーメーションラベルが含まれている。
論文参考訳（メタデータ） (2024-04-07T17:51:53Z)
X-InstructBLIP: A Framework for aligning X-Modal instruction-aware representations to LLMs and Emergent Cross-modal Reasoning [109.9413329636322]
本稿では,複数のモーダル性(画像,3D,オーディオ,ビデオ)を凍結した大規模言語モデル(LLM)に統合する効率的なフレームワークを提案する。提案手法では, Q-Formers と Linear Projections (LP) の2つの異なるプロジェクション機構について検討する。
論文参考訳（メタデータ） (2023-11-30T18:43:51Z)
Physics Inspired Hybrid Attention for SAR Target Recognition [61.01086031364307]
本稿では,物理にヒントを得たハイブリットアテンション(PIHA)機構と,この問題に対処するためのOFA評価プロトコルを提案する。 PIHAは、物理的情報の高レベルなセマンティクスを活用して、ターゲットの局所的なセマンティクスを認識した特徴群を活性化し、誘導する。提案手法は,ASCパラメータが同じ12のテストシナリオにおいて,他の最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-09-27T14:39:41Z)
Dissecting Multimodality in VideoQA Transformer Models by Impairing Modality Fusion [54.33764537135906]
VideoQA Transformerモデルは標準ベンチマークで競合性能を示す。これらのモデルはビデオとテキストからリッチなマルチモーダル構造とダイナミックスを一緒に捉えていますか? 彼らはバイアスと刺激的な特徴を利用して高いスコアを達成していますか?
論文参考訳（メタデータ） (2023-06-15T06:45:46Z)
Towards Activated Muscle Group Estimation in the Wild [44.7050439903772]
野生の身体活動における活動筋領域の同定を目的としたビデオベースの活動筋群推定(AMGE)の課題に取り組む。我々は135の異なる活動と20のラベル付き筋群を持つ15Kビデオクリップを特徴とする筋マップデータセットを提供する。このデータセットはYouTubeのビデオで構築されており、特にハイインテンシティ・インターバルトレーニング(HIIT)をターゲットとしている。
論文参考訳（メタデータ） (2023-03-02T04:12:53Z)
FLAG3D: A 3D Fitness Activity Dataset with Language Instruction [89.60371681477791]
FLAG3Dは,60カテゴリの180Kシーケンスを含む言語命令付き大規模3Dフィットネスアクティビティデータセットである。 FLAG3Dは、クロスドメインなヒューマンアクション認識、動的ヒューマンメッシュリカバリ、言語誘導型ヒューマンアクション生成など、さまざまな課題に対して大きな研究価値を提供する。
論文参考訳（メタデータ） (2022-12-09T02:33:33Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。