論文の概要: PPT: token-Pruned Pose Transformer for monocular and multi-view human
pose estimation
- arxiv url: http://arxiv.org/abs/2209.08194v1
- Date: Fri, 16 Sep 2022 23:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 17:53:38.363073
- Title: PPT: token-Pruned Pose Transformer for monocular and multi-view human
pose estimation
- Title(参考訳): ppt:単眼・多視点人物ポーズ推定のためのトークンプルーニングポーズトランスフォーマ
- Authors: Haoyu Ma, Zhe Wang, Yifei Chen, Deying Kong, Liangjian Chen, Xingwei
Liu, Xiangyi Yan, Hao Tang, Xiaohui Xie
- Abstract要約: 本研究では,粗い人間のマスクの位置を推定し,選択したトークン内でのみ自己注意を行うことのできる2次元ポーズ推定用トークン処理ポストランス (PPT) を提案する。
我々はまた、人間の前景ピクセルを対応する候補とみなす、ヒト領域融合と呼ばれる新しいクロスビュー融合戦略を提案する。
- 参考スコア(独自算出の注目度): 25.878375219234975
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, the vision transformer and its variants have played an increasingly
important role in both monocular and multi-view human pose estimation.
Considering image patches as tokens, transformers can model the global
dependencies within the entire image or across images from other views.
However, global attention is computationally expensive. As a consequence, it is
difficult to scale up these transformer-based methods to high-resolution
features and many views.
In this paper, we propose the token-Pruned Pose Transformer (PPT) for 2D
human pose estimation, which can locate a rough human mask and performs
self-attention only within selected tokens. Furthermore, we extend our PPT to
multi-view human pose estimation. Built upon PPT, we propose a new cross-view
fusion strategy, called human area fusion, which considers all human foreground
pixels as corresponding candidates. Experimental results on COCO and MPII
demonstrate that our PPT can match the accuracy of previous pose transformer
methods while reducing the computation. Moreover, experiments on Human 3.6M and
Ski-Pose demonstrate that our Multi-view PPT can efficiently fuse cues from
multiple views and achieve new state-of-the-art results.
- Abstract(参考訳): 近年、視覚トランスフォーマーとその変種は、単眼と多眼の人間のポーズ推定においてますます重要な役割を担っている。
イメージパッチをトークンとして考えると、トランスフォーマーは画像全体または他のビューからのイメージ全体のグローバル依存関係をモデル化することができる。
しかし、グローバルな関心は計算的に高価である。
その結果、これらのトランスフォーマーベースの手法を高解像度機能や多くのビューにスケールアップすることは困難である。
本稿では,人間の顔の粗い面を識別し,選択したトークン内でのみセルフアテンションを行う2次元ポーズ推定のためのトークンプルーニングポーズトランスフォーマ(ppt)を提案する。
さらに、PPTを多視点人間のポーズ推定に拡張する。
PPTを基盤として,人間の前景画素を対応する候補とみなす,ヒト領域融合と呼ばれる新たなクロスビュー融合戦略を提案する。
COCO と MPII の実験結果から,PPT は計算量を削減しつつ,従来のポーズ変換手法の精度に適合することを示した。
さらに、Human 3.6M と Ski-Pose の実験により、マルチビュー PPT が複数のビューから効率的に融合し、新しい最先端の結果が得られることを示した。
関連論文リスト
- Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - Improved TokenPose with Sparsity [0.0]
我々は、人間のポーズ推定を改善するために、キーポイントトークンアテンションと視覚トークンアテンションの両方に空間性を導入する。
MPIIデータセットによる実験結果から,本モデルは精度が高く,本手法の有効性が証明された。
論文 参考訳(メタデータ) (2023-11-16T08:12:34Z) - Distilling Token-Pruned Pose Transformer for 2D Human Pose Estimation [0.0]
近年のPPTは画像の背景トークンをプルーニングすることでこの問題を解決している。
人間のポーズ推定(DPPT)のための蒸留プルーンド・トケン変換器という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-12T00:46:41Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - DPIT: Dual-Pipeline Integrated Transformer for Human Pose Estimation [24.082220581799156]
ポーズ推定のための新しいDual-Pipeline Integrated Transformer (DPIT)を提案する。
DPITは2つのブランチで構成され、ボトムアップブランチは全体像を扱い、グローバルな視覚情報をキャプチャする。
ボトムアップとトップダウンの分岐から抽出した特徴表現をトランスフォーマーエンコーダに入力し、グローバルとローカルの知識を対話的に融合させる。
論文 参考訳(メタデータ) (2022-09-02T10:18:26Z) - ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation [76.35955924137986]
人間のポーズ推定データセットを微調整した結果,MAEプリトレーニング付きプレーン・ビジョン・トランスフォーマが優れた性能が得られることを示す。
10億のパラメータを持つ ViTAE-G バックボーンをベースとした我々の最大の ViTPose モデルは MS COCO test-dev セット上で最高の 80.9 mAP を得る。
論文 参考訳(メタデータ) (2022-04-26T17:55:04Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation [21.37032015978738]
マルチビュー3Dポーズ推定のためのトランスフォーマーフレームワークを提案する。
従来のマルチモーダルトランスにインスパイアされて,TransFusionと呼ばれる統一トランスフォーマーアーキテクチャを設計する。
本稿では,3次元位置情報をトランスモデルにエンコードするためのエピポーラ場の概念を提案する。
論文 参考訳(メタデータ) (2021-10-18T18:08:18Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - AdaFuse: Adaptive Multiview Fusion for Accurate Human Pose Estimation in
the Wild [77.43884383743872]
本稿では,アダプティブなマルチビュー融合手法であるAdaFuseについて述べる。
我々は、Human3.6M、Total Capture、CMU Panopticの3つの公開データセットに対するアプローチを広く評価した。
また,大規模合成データセットOcclusion-Personを作成し,咬合関節の数値評価を行う。
論文 参考訳(メタデータ) (2020-10-26T03:19:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。