論文の概要: AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation
- arxiv url: http://arxiv.org/abs/2205.05277v1
- Date: Wed, 11 May 2022 05:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:16:16.897293
- Title: AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation
- Title(参考訳): aggpose:乳児ポーズ推定のための深部集約視覚トランスフォーマ
- Authors: Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu
Zeng, Jianguo Cao
- Abstract要約: 幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案する。
AggPoseは、畳み込み操作を使わずに、早く訓練されたフルトランスフォーマーフレームワークである。
AggPose は,様々な解像度のマルチスケール特徴を効果的に学習し,幼児のポーズ推定の性能を大幅に向上できることを示した。
- 参考スコア(独自算出の注目度): 6.9000851935487075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Movement and pose assessment of newborns lets experienced pediatricians
predict neurodevelopmental disorders, allowing early intervention for related
diseases. However, most of the newest AI approaches for human pose estimation
methods focus on adults, lacking publicly benchmark for infant pose estimation.
In this paper, we fill this gap by proposing infant pose dataset and Deep
Aggregation Vision Transformer for human pose estimation, which introduces a
fast trained full transformer framework without using convolution operations to
extract features in the early stages. It generalizes Transformer + MLP to
high-resolution deep layer aggregation within feature maps, thus enabling
information fusion between different vision levels. We pre-train AggPose on
COCO pose dataset and apply it on our newly released large-scale infant pose
estimation dataset. The results show that AggPose could effectively learn the
multi-scale features among different resolutions and significantly improve the
performance of infant pose estimation. We show that AggPose outperforms hybrid
model HRFormer and TokenPose in the infant pose estimation dataset. Moreover,
our AggPose outperforms HRFormer by 0.7% AP on COCO val pose estimation on
average. Our code is available at github.com/SZAR-LAB/AggPose.
- Abstract(参考訳): 新生児の運動とポーズアセスメントにより、経験豊富な小児科医は神経発達障害を予測でき、関連する疾患に早期に介入することができる。
しかしながら、人間のポーズ推定手法の最新のAIアプローチのほとんどは大人に焦点を当てており、幼児ポーズ推定の公的なベンチマークが欠如している。
本稿では,幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案することで,このギャップを埋める。
Transformer + MLPを特徴マップ内の高分解能層集約に一般化し、異なる視覚レベル間の情報融合を可能にする。
cocoポーズデータセットを事前トレーニングし,新たにリリースした大規模幼児ポーズ推定データセットに適用する。
その結果, aggposeは, 異なる解像度のマルチスケール特徴を効果的に学習でき, 乳児ポーズ推定の性能を大幅に向上できることがわかった。
AggPoseは幼児のポーズ推定データセットにおいてHRFormerとTokenPoseのハイブリッドモデルよりも優れていることを示す。
さらに,AggPose は COCO val で HRFormer を 0.7% AP で上回っている。
私たちのコードはgithub.com/SZAR-LAB/AggPoseで利用可能です。
関連論文リスト
- Comparison of marker-less 2D image-based methods for infant pose estimation [2.7726930707973048]
GMA(General Movement Assessment)は、乳児運動機能(英語版)を分類するためのビデオベースのツールである。
一般用および幼児用推定器の性能と最適な記録のための視角の選択を比較した。
以上の結果から,成人のViTPoseを訓練する上で,最も優れた行動モデルが幼児の行動に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-10-07T12:21:49Z) - Under the Cover Infant Pose Estimation using Multimodal Data [0.0]
対象児のポーズ推定のための新しいデータセットMannequin Lying pose (SMaL) を提案する。
我々は,技量推定の訓練により,全身のポーズを表紙下で推測することに成功した。
最高性能モデルでは,25mm 86%以内で関節を検出でき,全体の平均誤差は16.9mmであった。
論文 参考訳(メタデータ) (2022-10-03T00:34:45Z) - Bottom-Up 2D Pose Estimation via Dual Anatomical Centers for Small-Scale
Persons [75.86463396561744]
マルチパーソン2Dポーズ推定では、ボトムアップ手法は同時にすべての人のポーズを予測する。
本手法は,バウンディングボックス精度を38.4%改善し,バウンディングボックスリコールを39.1%改善した。
ヒトのポーズAP評価では,COCOテストデフセット上で新しいSOTA(71.0 AP)を単一スケールテストで達成する。
論文 参考訳(メタデータ) (2022-08-25T10:09:10Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Unsupervised Human Pose Estimation through Transforming Shape Templates [2.729524133721473]
本研究では,成人および乳幼児のポーズ推定を教師なしで学習するための新しい手法を提案する。
成人と幼児を含む2つの異なるデータセットに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-10T07:15:56Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z) - Invariant Representation Learning for Infant Pose Estimation with Small
Data [14.91506452479778]
合成乳児ポーズと合成乳幼児ポーズとを併用したハイブリッド合成乳幼児ポーズデータセットを作成した。
我々は,SyRIPデータセットでトレーニングしたモデルと同一ネットワーク構造を用いたアブレーション調査を行い,他の公立幼児ポーズデータセットでトレーニングしたモデルよりも顕著に改善したことを示した。
最新のDarkPoseモデルを用いた幼児のポーズ推定では、平均的精度(mAP)は93.6である。
論文 参考訳(メタデータ) (2020-10-13T01:10:14Z) - Bottom-Up Human Pose Estimation by Ranking Heatmap-Guided Adaptive
Keypoint Estimates [76.51095823248104]
キーポイント検出とグループ化(キーポイント回帰)性能を改善するために,これまでにほとんど,あるいはまったく研究されていないいくつかのスキームを提案する。
まず,画素単位のキーポイントレグレッションに対して,キーポイントのリグレッションを改善するために分離する代わりに,キーポイントのヒートマップを利用する。
第2に、スケールと向きの分散を扱うための適応表現を学習するために、画素単位の空間変換器ネットワークを採用する。
第3に,真のポーズとなる確率の高い推定ポーズを促進するために,結合形状と熱値評価手法を提案する。
論文 参考訳(メタデータ) (2020-06-28T01:14:59Z) - Preterm infants' pose estimation with spatio-temporal features [7.054093620465401]
本稿では,手足検出・追跡における短期的特徴の活用について紹介する。
手足位置推定の実際の臨床実践で得られた深度ビデオを用いた最初の研究である。
論文 参考訳(メタデータ) (2020-05-08T09:51:22Z) - Anatomy-aware 3D Human Pose Estimation with Bone-based Pose
Decomposition [92.99291528676021]
3次元関節位置を直接回帰するのではなく,骨方向予測と骨長予測に分解する。
私たちのモチベーションは、人間の骨格の骨の長さが時間とともに一定であることにあります。
我々の完全なモデルは、Human3.6MとMPI-INF-3DHPデータセットにおいて、以前の最高の結果よりも優れています。
論文 参考訳(メタデータ) (2020-02-24T15:49:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。