論文の概要: Automatic infant 2D pose estimation from videos: comparing seven deep neural network methods
- arxiv url: http://arxiv.org/abs/2406.17382v1
- Date: Tue, 25 Jun 2024 08:58:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:01:42.303230
- Title: Automatic infant 2D pose estimation from videos: comparing seven deep neural network methods
- Title(参考訳): ビデオによる幼児の2Dポーズの自動推定:7つのディープニューラルネットワーク手法の比較
- Authors: Filipe Gama, Matej Misar, Lukas Navara, Jason Khoury, Sergiu T. Popescu, Matej Hoffmann,
- Abstract要約: この作業は、乳幼児の体位に関するビデオ(AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, ViTPose)をテストし、比較する。
驚いたことに、DeepLabCutとMediaPipeを除くすべてのメソッドは、さらなる微調整なしで競争性能を保ち、ViTPoseは最高性能である。
- 参考スコア(独自算出の注目度): 0.9895793818721335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic markerless estimation of infant posture and motion from ordinary videos carries great potential for movement studies "in the wild", facilitating understanding of motor development and massively increasing the chances of early diagnosis of disorders. There is rapid development of human pose estimation methods in computer vision thanks to advances in deep learning and machine learning. However, these methods are trained on datasets featuring adults in different contexts. This work tests and compares seven popular methods (AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, and ViTPose) on videos of infants in supine position. Surprisingly, all methods except DeepLabCut and MediaPipe have competitive performance without additional finetuning, with ViTPose performing best. Next to standard performance metrics (object keypoint similarity, average precision and recall), we introduce errors expressed in the neck-mid-hip ratio and additionally study missed and redundant detections and the reliability of the internal confidence ratings of the different methods, which are relevant for downstream tasks. Among the networks with competitive performance, only AlphaPose could run close to real time (27 fps) on our machine. We provide documented Docker containers or instructions for all the methods we used, our analysis scripts, and processed data at https://hub.docker.com/u/humanoidsctu and https://osf.io/x465b/.
- Abstract(参考訳): 通常のビデオから乳児の姿勢や動きを自動的に計測することは、運動研究の「野生」に大きな可能性をもたらし、運動発達の理解を促進し、障害の早期診断の可能性を大幅に増大させる。
ディープラーニングと機械学習の進歩により,コンピュータビジョンにおける人間のポーズ推定手法が急速に発達している。
しかし、これらの手法は大人を対象とするデータセットに基づいて異なる文脈で訓練されている。
この作業は、乳幼児の体位に関するビデオ(AlphaPose, DeepLabCut/DeeperCut, Detectron2, HRNet, MediaPipe/BlazePose, OpenPose, ViTPose)をテストし、比較する。
驚いたことに、DeepLabCutとMediaPipeを除くすべてのメソッドは、さらなる微調整なしで競争性能を保ち、ViTPoseは最高性能である。
標準性能指標(鍵点類似度,平均精度,リコール)に次いで,首中ヒップ比で表される誤差を導入し,誤り検出と冗長検出と,下流タスクに関連する各手法の内部信頼度評価の信頼性について検討する。
競争力のあるネットワークの中では、マシン上でリアルタイム(27fps)に動作できるのはAlphaPoseのみでした。
使用したすべてのメソッド、分析スクリプト、および処理されたデータは、https://hub.docker.com/u/ Humanoidsctuとhttps://osf.io/x465b/でドキュメント化されたDockerコンテナや命令を提供します。
関連論文リスト
- Graspness Discovery in Clutters for Fast and Accurate Grasp Detection [57.81325062171676]
グレープネス(graspness)とは、散らばった場面で把握可能な領域を区別する幾何学的手がかりに基づく品質である。
本研究では,探索過程を近似するカスケード把握モデルを構築した。
大規模なベンチマークであるGraspNet-1Billionの実験では,提案手法が従来の手法よりも大きなマージンで優れていたことが示されている。
論文 参考訳(メタデータ) (2024-06-17T02:06:47Z) - Learning Temporally Consistent Video Depth from Video Diffusion Priors [57.929828486615605]
本研究は,映像深度推定の課題に対処する。
我々は予測タスクを条件付き生成問題に再構成する。
これにより、既存のビデオ生成モデルに埋め込まれた事前の知識を活用することができる。
論文 参考訳(メタデータ) (2024-06-03T16:20:24Z) - HMP: Hand Motion Priors for Pose and Shape Estimation from Video [52.39020275278984]
我々は,多種多様な高品質の手の動きを特徴とするAMASSデータセットに基づいて,手動に特有な生成動作を開発する。
頑健な動きの統合は、特に隠蔽されたシナリオにおいて、パフォーマンスを著しく向上させる。
HO3DおよびDexYCBデータセットの質的および定量的評価により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-12-27T22:35:33Z) - FakeOut: Leveraging Out-of-domain Self-supervision for Multi-modal Video
Deepfake Detection [10.36919027402249]
人間の話し言葉の合成ビデオは、説得力のある方法で誤情報を拡散するのに使用することができる。
FakeOutは、事前トレーニングフェーズと適応フェーズの両方でマルチモーダルデータに依存する、新しいアプローチである。
提案手法は,オーディオ・ビジュアル・データセット上でのクロスデータセットの一般化を実現する。
論文 参考訳(メタデータ) (2022-12-01T18:56:31Z) - TempNet: Temporal Attention Towards the Detection of Animal Behaviour in
Videos [63.85815474157357]
本稿では,映像中の生物学的行動を検出するための,効率的なコンピュータビジョンと深層学習に基づく手法を提案する。
TempNetはエンコーダブリッジと残留ブロックを使用して、2段階の空間的、そして時間的、エンコーダでモデル性能を維持する。
本研究では,サブルフィッシュ (Anoplopoma fimbria) 幼虫の検出への応用を実証する。
論文 参考訳(メタデータ) (2022-11-17T23:55:12Z) - Supervised learning for improving the accuracy of robot-mounted 3D
camera applied to human gait analysis [0.31171750528972203]
歩行分析における3Dカメラの使用は、過去に実証された低い精度のため、非常に疑問視されている。
3Dカメラは、より長い歩行距離を得るために移動ロボットに搭載された。
本研究は,カメラの生推定を後処理することで,運動歩行信号と歩行記述子の検出の改善を示す。
論文 参考訳(メタデータ) (2022-07-03T10:35:18Z) - Federated Remote Physiological Measurement with Imperfect Data [10.989271258156883]
高齢化と新型コロナウイルス(COVID-19)のパンデミックによって、遠隔医療を支える技術の必要性が高まっている。
健康関連機械学習アプリケーションでは、データがプライベートデバイスを離れることなく予測モデルを学習する能力は魅力的である。
カメラによる遠隔生理的センシングは、スケーラブルで低コストな測定を容易にする。
論文 参考訳(メタデータ) (2022-03-11T05:26:46Z) - Self-supervised Transformer for Deepfake Detection [112.81127845409002]
現実世界のシナリオにおけるディープフェイク技術は、顔偽造検知器のより強力な一般化能力を必要とする。
転送学習に触発されて、他の大規模な顔関連タスクで事前訓練されたニューラルネットワークは、ディープフェイク検出に有用な機能を提供する可能性がある。
本稿では,自己教師型変換器を用いた音声視覚コントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-02T17:44:40Z) - Self-Supervised Human Depth Estimation from Monocular Videos [99.39414134919117]
人間の深度を推定する従来の方法は、しばしば地上の真実の深度データを用いた教師あり訓練を必要とする。
本稿では,YouTubeビデオの奥行きを知ることなく,自己指導型手法を提案する。
実験により,本手法はより一般化され,野生のデータに対してより優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2020-05-07T09:45:11Z) - Denoising IMU Gyroscopes with Deep Learning for Open-Loop Attitude
Estimation [0.0]
本稿では,慣性計測ユニット(IMU)のジャイロスコープを地中真実データを用いて識別する学習手法を提案する。
得られたアルゴリズムは、(目に見えない)テストシーケンスで最先端の処理を行う。
論文 参考訳(メタデータ) (2020-02-25T08:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。