論文の概要: VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation
- arxiv url: http://arxiv.org/abs/2205.12602v1
- Date: Wed, 25 May 2022 09:26:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-26 15:16:47.131464
- Title: VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation
- Title(参考訳): vtp:多視点多人数3次元ポーズ推定用ボリュームトランス
- Authors: Yuxing Chen, Renshu Gu, Ouhan Huang and Gangyong Jia
- Abstract要約: Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
- 参考スコア(独自算出の注目度): 4.603321798937854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents Volumetric Transformer Pose estimator (VTP), the first 3D
volumetric transformer framework for multi-view multi-person 3D human pose
estimation. VTP aggregates features from 2D keypoints in all camera views and
directly learns the spatial relationships in the 3D voxel space in an
end-to-end fashion. The aggregated 3D features are passed through 3D
convolutions before being flattened into sequential embeddings and fed into a
transformer. A residual structure is designed to further improve the
performance. In addition, the sparse Sinkhorn attention is empowered to reduce
the memory cost, which is a major bottleneck for volumetric representations,
while also achieving excellent performance. The output of the transformer is
again concatenated with 3D convolutional features by a residual design. The
proposed VTP framework integrates the high performance of the transformer with
volumetric representations, which can be used as a good alternative to the
convolutional backbones. Experiments on the Shelf, Campus and CMU Panoptic
benchmarks show promising results in terms of both Mean Per Joint Position
Error (MPJPE) and Percentage of Correctly estimated Parts (PCP). Our code will
be available.
- Abstract(参考訳): 本稿では,多視点マルチパーソン3次元ポーズ推定のための最初の3次元ボリュームトランスフォーマーフレームワークであるVTPについて述べる。
VTPは、すべてのカメラビューにおける2Dキーポイントの特徴を集約し、エンドツーエンドで3Dボクセル空間の空間関係を直接学習する。
集約された3D特徴は、3D畳み込みを経て、順次埋め込みされ、トランスに供給される。
残余構造は性能をさらに向上するように設計されている。
さらに、スパークスシンクホーンの注目度は、ボリューム表現の大きなボトルネックであるメモリコストを低減しつつ、優れた性能を実現するためにも有効である。
変圧器の出力は、残留設計により再び3次元畳み込み特徴と連結される。
提案するVTPフレームワークは,コンボリューションバックボーンの優れた代替品として使用可能なボリューム表現とトランスフォーマーの高性能性を統合している。
Shelf, Campus, CMU Panoptic のベンチマーク実験では,MPJPE (Mean Per Joint Position Error) とPCP (Percentage of Correctly estimated Parts) の両方で有望な結果が得られた。
私たちのコードは利用可能です。
関連論文リスト
- SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。
SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。
SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文 参考訳(メタデータ) (2024-04-23T17:59:59Z) - Hourglass Tokenizer for Efficient Transformer-Based 3D Human Pose Estimation [73.31524865643709]
本稿では,Hourglass Tokenizer (HoT) と呼ばれるプラグアンドプレイのプルーニング・アンド・リカバリフレームワークを提案する。
私たちのHoDTは、冗長なフレームのポーズトークンのプルーニングから始まり、フル長のトークンを復元することで終了します。
提案手法は,従来のVPTモデルと比較して高い効率性と推定精度を両立させることができる。
論文 参考訳(メタデータ) (2023-11-20T18:59:51Z) - UniTR: A Unified and Efficient Multi-Modal Transformer for
Bird's-Eye-View Representation [113.35352122662752]
屋外3次元知覚のためのマルチモーダルバックボーンUniTRを提案する。
UniTRは、統一されたモデリングと共有パラメータで様々なモダリティを処理する。
UniTRは基本的にタスクに依存しないバックボーンであり、異なる3D知覚タスクを自然にサポートする。
論文 参考訳(メタデータ) (2023-08-15T12:13:44Z) - PSVT: End-to-End Multi-person 3D Pose and Shape Estimation with
Progressive Video Transformers [71.72888202522644]
本稿では,プログレッシブ・ビデオ・トランスフォーマーを用いたエンドツーエンドのマルチパーソン3D・形状推定フレームワークを提案する。
PSVTでは、時空間エンコーダ(PGA)は空間オブジェクト間のグローバルな特徴依存性をキャプチャする。
時間の経過とともにオブジェクトの分散を処理するために、プログレッシブデコーディングの新しいスキームが使用される。
論文 参考訳(メタデータ) (2023-03-16T09:55:43Z) - DSVT: Dynamic Sparse Voxel Transformer with Rotated Sets [95.84755169585492]
本研究では,屋外3次元知覚のためのシングルストライドウィンドウベースのボクセルトランスであるDynamic Sparse Voxel Transformer (DSVT)を提案する。
本モデルでは,3次元認識タスクを多岐にわたって行うことにより,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-01-15T09:31:58Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - AFTer-UNet: Axial Fusion Transformer UNet for Medical Image Segmentation [19.53151547706724]
トランスをベースとしたモデルは、医療画像セグメンテーションにおけるこれらの手法の探求に注目されている。
本稿では、畳み込み層の長周期モデリングにおける詳細特徴抽出能力と変圧器強度の両面を活かしたAxial Fusion Transformer UNet(AFTer-UNet)を提案する。
パラメータが少なく、GPUメモリのトレーニングも従来のトランスフォーマーベースのモデルよりも少ない。
論文 参考訳(メタデータ) (2021-10-20T06:47:28Z) - TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation [21.37032015978738]
マルチビュー3Dポーズ推定のためのトランスフォーマーフレームワークを提案する。
従来のマルチモーダルトランスにインスパイアされて,TransFusionと呼ばれる統一トランスフォーマーアーキテクチャを設計する。
本稿では,3次元位置情報をトランスモデルにエンコードするためのエピポーラ場の概念を提案する。
論文 参考訳(メタデータ) (2021-10-18T18:08:18Z) - Lifting Transformer for 3D Human Pose Estimation in Video [27.005291611674377]
本稿では,3次元ポーズ推定のための新しいトランスフォーマーアーキテクチャLifting Transformerを提案する。
バニラトランスフォーマーエンコーダ(VTE)は、2次元ポーズシーケンスの長距離依存性をモデル化するために用いられる。
修正されたVTEは、STE(Strided Transformer Encoder)と呼ばれ、VTEの出力に基づいて構築されます。
論文 参考訳(メタデータ) (2021-03-26T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。