論文の概要: AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation
- arxiv url: http://arxiv.org/abs/2205.05277v1
- Date: Wed, 11 May 2022 05:34:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:16:16.897293
- Title: AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation
- Title(参考訳): aggpose:乳児ポーズ推定のための深部集約視覚トランスフォーマ
- Authors: Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu
Zeng, Jianguo Cao
- Abstract要約: 幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案する。
AggPoseは、畳み込み操作を使わずに、早く訓練されたフルトランスフォーマーフレームワークである。
AggPose は,様々な解像度のマルチスケール特徴を効果的に学習し,幼児のポーズ推定の性能を大幅に向上できることを示した。
- 参考スコア(独自算出の注目度): 6.9000851935487075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Movement and pose assessment of newborns lets experienced pediatricians
predict neurodevelopmental disorders, allowing early intervention for related
diseases. However, most of the newest AI approaches for human pose estimation
methods focus on adults, lacking publicly benchmark for infant pose estimation.
In this paper, we fill this gap by proposing infant pose dataset and Deep
Aggregation Vision Transformer for human pose estimation, which introduces a
fast trained full transformer framework without using convolution operations to
extract features in the early stages. It generalizes Transformer + MLP to
high-resolution deep layer aggregation within feature maps, thus enabling
information fusion between different vision levels. We pre-train AggPose on
COCO pose dataset and apply it on our newly released large-scale infant pose
estimation dataset. The results show that AggPose could effectively learn the
multi-scale features among different resolutions and significantly improve the
performance of infant pose estimation. We show that AggPose outperforms hybrid
model HRFormer and TokenPose in the infant pose estimation dataset. Moreover,
our AggPose outperforms HRFormer by 0.7% AP on COCO val pose estimation on
average. Our code is available at github.com/SZAR-LAB/AggPose.
- Abstract(参考訳): 新生児の運動とポーズアセスメントにより、経験豊富な小児科医は神経発達障害を予測でき、関連する疾患に早期に介入することができる。
しかしながら、人間のポーズ推定手法の最新のAIアプローチのほとんどは大人に焦点を当てており、幼児ポーズ推定の公的なベンチマークが欠如している。
本稿では,幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案することで,このギャップを埋める。
Transformer + MLPを特徴マップ内の高分解能層集約に一般化し、異なる視覚レベル間の情報融合を可能にする。
cocoポーズデータセットを事前トレーニングし,新たにリリースした大規模幼児ポーズ推定データセットに適用する。
その結果, aggposeは, 異なる解像度のマルチスケール特徴を効果的に学習でき, 乳児ポーズ推定の性能を大幅に向上できることがわかった。
AggPoseは幼児のポーズ推定データセットにおいてHRFormerとTokenPoseのハイブリッドモデルよりも優れていることを示す。
さらに,AggPose は COCO val で HRFormer を 0.7% AP で上回っている。
私たちのコードはgithub.com/SZAR-LAB/AggPoseで利用可能です。
関連論文リスト
- Unsupervised Domain Adaptation Learning for Hierarchical Infant Pose
Recognition with Synthetic Data [28.729049747477085]
幼児の画像を入力とし、粗いポーズラベルと細かなポーズラベルを予測するCNNベースのモデルを提案する。
実験の結果,提案手法は,合成および実世界のデータセットの分布を著しく整合させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-04T04:59:26Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Vogtareuth Rehab Depth Datasets: Benchmark for Marker-less Posture
Estimation in Rehabilitation [55.41644538483948]
本研究では,リハビリテーションを行う患者の深度画像と2次元ポーズ情報を含む2つのリハビリテーション特異的ポーズデータセットを提案する。
我々は、非リハブベンチマークデータセットに基づいてトレーニングされた、最先端のマーカーレス姿勢推定モデルを用いている。
私たちのデータセットは、リハビリ特有の複雑な姿勢を検出するために、ポーズモデルを訓練するのに使用できます。
論文 参考訳(メタデータ) (2021-08-23T16:18:26Z) - MSR-GCN: Multi-Scale Residual Graph Convolution Networks for Human
Motion Prediction [34.565986275769745]
本稿では,人間のポーズ予測のためのマルチスケール残差グラフ畳み込みネットワーク(MSR-GCN)を提案する。
提案手法は、Human3.6MデータセットとCMU Mocapデータセットの2つの標準ベンチマークデータセットで評価される。
論文 参考訳(メタデータ) (2021-08-16T15:26:23Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Unsupervised Human Pose Estimation through Transforming Shape Templates [2.729524133721473]
本研究では,成人および乳幼児のポーズ推定を教師なしで学習するための新しい手法を提案する。
成人と幼児を含む2つの異なるデータセットに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-10T07:15:56Z) - PoseAug: A Differentiable Pose Augmentation Framework for 3D Human Pose
Estimation [83.50127973254538]
既存の3D人間のポーズ推定器は、新しいデータセットへの一般化性能が悪い。
PoseAugは、より多くの多様性に向けて利用可能なトレーニングのポーズを強化することを学ぶ新しい自動増強フレームワークです。
論文 参考訳(メタデータ) (2021-05-06T06:57:42Z) - Bottom-Up Human Pose Estimation Via Disentangled Keypoint Regression [81.05772887221333]
従来のキーポイント検出およびグループ化フレームワークに劣る密度の高いキーポイント回帰フレームワークについて検討する。
我々は,dekr(disentangled keypoint regression)という,単純かつ効果的な手法を提案する。
提案手法はキーポイント検出法やグループ化法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-06T05:54:46Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。