論文の概要: Paving the Way Towards Kinematic Assessment Using Monocular Video: A Preclinical Benchmark of State-of-the-Art Deep-Learning-Based 3D Human Pose Estimators Against Inertial Sensors in Daily Living Activities
- arxiv url: http://arxiv.org/abs/2510.02264v1
- Date: Thu, 02 Oct 2025 17:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.264295
- Title: Paving the Way Towards Kinematic Assessment Using Monocular Video: A Preclinical Benchmark of State-of-the-Art Deep-Learning-Based 3D Human Pose Estimators Against Inertial Sensors in Daily Living Activities
- Title(参考訳): 単眼ビデオによる体力評価への道を開く: 日常生活における慣性センサーに対する3次元深層学習型人体姿勢推定器の予備的ベンチマーク
- Authors: Mario Medrano-Paredes, Carmen Fernández-González, Francisco-Javier Díaz-Pernas, Hichem Saoudi, Javier González-Alonso, Mario Martínez-Zarzuela,
- Abstract要約: 本研究は、慣性計測ユニット(IMU)を用いた単眼映像に基づく3次元ポーズ推定モデルの比較である。
IMUデータから計算した関節角度に対して,最先端のディープラーニングフレームワークから得られる関節角度を評価した。
MotionAGFormerは優れた性能を示し、RMSE全体の最低値を達成した。
- 参考スコア(独自算出の注目度): 1.3854111346209868
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Advances in machine learning and wearable sensors offer new opportunities for capturing and analyzing human movement outside specialized laboratories. Accurate assessment of human movement under real-world conditions is essential for telemedicine, sports science, and rehabilitation. This preclinical benchmark compares monocular video-based 3D human pose estimation models with inertial measurement units (IMUs), leveraging the VIDIMU dataset containing a total of 13 clinically relevant daily activities which were captured using both commodity video cameras and five IMUs. During this initial study only healthy subjects were recorded, so results cannot be generalized to pathological cohorts. Joint angles derived from state-of-the-art deep learning frameworks (MotionAGFormer, MotionBERT, MMPose 2D-to-3D pose lifting, and NVIDIA BodyTrack) were evaluated against joint angles computed from IMU data using OpenSim inverse kinematics following the Human3.6M dataset format with 17 keypoints. Among them, MotionAGFormer demonstrated superior performance, achieving the lowest overall RMSE ($9.27\deg \pm 4.80\deg$) and MAE ($7.86\deg \pm 4.18\deg$), as well as the highest Pearson correlation ($0.86 \pm 0.15$) and the highest coefficient of determination $R^{2}$ ($0.67 \pm 0.28$). The results reveal that both technologies are viable for out-of-the-lab kinematic assessment. However, they also highlight key trade-offs between video- and sensor-based approaches including costs, accessibility, and precision. This study clarifies where off-the-shelf video models already provide clinically promising kinematics in healthy adults and where they lag behind IMU-based estimates while establishing valuable guidelines for researchers and clinicians seeking to develop robust, cost-effective, and user-friendly solutions for telehealth and remote patient monitoring.
- Abstract(参考訳): 機械学習とウェアラブルセンサーの進歩は、特殊な研究室の外での人間の動きを捉え分析する新たな機会を提供する。
遠隔医療、スポーツ科学、リハビリテーションには、現実の環境下での人間の運動の正確な評価が不可欠である。
この前臨床ベンチマークは、モノクロビデオに基づく3次元ポーズ推定モデルと慣性測定ユニット(IMU)を比較し、コモディティビデオカメラと5つのIMUを用いて、合計13の臨床的な日常活動を含むVIDIMUデータセットを活用する。
最初の研究では健康な被験者のみが記録され、その結果は病理コホートに一般化できない。
最新のディープラーニングフレームワーク(MotionAGFormer, MotionBERT, MMPose 2D-to-3D pose lifting, NVIDIA BodyTrack)から得られた関節角度を、17個のキーポイントを持つHuman3.6MデータセットフォーマットのOpenSim逆運動学を用いてIMUデータから計算した関節角度に対して評価した。
その中でMotionAGFormerは、RMSE (9.27\deg \pm 4.80\deg$) と MAE (7.86\deg \pm 4.18\deg$) と、ピアソン相関 (0.86 \pm 0.15$) と決定係数 (0.67 \pm 0.28$) の最高値である。
その結果,両技術は既定のキネマティック・アセスメントに有効であることが判明した。
しかし、コスト、アクセシビリティ、精度など、ビデオとセンサーベースのアプローチの主なトレードオフを強調している。
本研究は、健康な成人に既に有望なキネマティクスを提供するオフ・ザ・シェルフビデオモデルが、IMUに基づく見積もりに遅れをきたし、遠隔医療や遠隔患者監視のための堅牢で費用対効果の高いソリューションを開発しようとする研究者や臨床医にとって貴重なガイドラインを定めていることを明らかにした。
関連論文リスト
- Validation of Human Pose Estimation and Human Mesh Recovery for Extracting Clinically Relevant Motion Data from Videos [79.62407455005561]
人間のポーズ推定を用いたマーカーレスモーションキャプチャは、IMUとMoCapのキネマティクスの結果とインラインで結果を生成する。
生成するデータの品質に関してはまだ改善の余地がありますが、この妥協はエラーの部屋にあると考えています。
論文 参考訳(メタデータ) (2025-03-18T22:18:33Z) - Finetuning and Quantization of EEG-Based Foundational BioSignal Models on ECG and PPG Data for Blood Pressure Estimation [53.2981100111204]
光胸腺撮影と心電図は、連続血圧モニタリング(BP)を可能にする可能性がある。
しかし、データ品質と患者固有の要因の変化のため、正確で堅牢な機械学習(ML)モデルは依然として困難である。
本研究では,1つのモータリティで事前学習したモデルを効果的に利用して,異なる信号タイプの精度を向上させる方法について検討する。
本手法は, 拡張期BPの最先端精度を約1.5倍に向上し, 拡張期BPの精度を1.5倍に向上させる。
論文 参考訳(メタデータ) (2025-02-10T13:33:12Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - 3D Kinematics Estimation from Video with a Biomechanical Model and
Synthetic Training Data [4.130944152992895]
2つの入力ビューから3Dキネマティクスを直接出力するバイオメカニクス対応ネットワークを提案する。
実験により, 提案手法は, 合成データにのみ訓練されたものであり, 従来の最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-02-20T17:33:40Z) - Next-generation Surgical Navigation: Marker-less Multi-view 6DoF Pose Estimation of Surgical Instruments [64.59698930334012]
静止カメラとヘッドマウントカメラを組み合わせたマルチカメラ・キャプチャー・セットアップを提案する。
第2に,手術用ウェットラボと実際の手術用劇場で撮影された元脊椎手術のマルチビューRGB-Dビデオデータセットを公表した。
第3に,手術器具の6DoFポーズ推定の課題に対して,最先端のシングルビューとマルチビューの3つの手法を評価した。
論文 参考訳(メタデータ) (2023-05-05T13:42:19Z) - Multimodal video and IMU kinematic dataset on daily life activities
using affordable devices (VIDIMU) [0.0]
本データセットの目的は,日常活動の認識と運動解析のために,手頃な価格の患者総運動追跡ソリューションへの道を開くことである。
i)選択した運動の臨床的関連性、(ii)安価なビデオとカスタムセンサーの併用、(iii)3Dボディのポーズ追跡とモーション再構成のマルチモーダルデータ処理のための最先端ツールの実装。
論文 参考訳(メタデータ) (2023-03-27T14:05:49Z) - Appearance Learning for Image-based Motion Estimation in Tomography [60.980769164955454]
トモグラフィー画像では、取得した信号に擬似逆フォワードモデルを適用することにより、解剖学的構造を再構成する。
患者の動きは、復元過程における幾何学的アライメントを損なうため、運動アーティファクトが生じる。
本研究では,スキャン対象から独立して剛性運動の構造を認識する外観学習手法を提案する。
論文 参考訳(メタデータ) (2020-06-18T09:49:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。