論文の概要: Adaptively Multi-view and Temporal Fusing Transformer for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2110.05092v1
- Date: Mon, 11 Oct 2021 08:57:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:59:53.601820
- Title: Adaptively Multi-view and Temporal Fusing Transformer for 3D Human Pose
Estimation
- Title(参考訳): 3次元人物位置推定のための適応的多視点・時間変動変換器
- Authors: Hui Shuai, Lele Wu, and Qingshan Liu
- Abstract要約: 3D Human Pose Estimation (HPE)は、ビューの数、ビデオシーケンスの長さ、カメラキャリブレーションの使用の有無など、さまざまな要素に直面している。
本稿では,マルチビュー・テンポラル・フュージング・トランスフォーマ (MTF-Transformer) という統合フレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.625664582408687
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In practical application, 3D Human Pose Estimation (HPE) is facing with
several variable elements, involving the number of views, the length of the
video sequence, and whether using camera calibration. To this end, we propose a
unified framework named Multi-view and Temporal Fusing Transformer
(MTF-Transformer) to adaptively handle varying view numbers and video length
without calibration. MTF-Transformer consists of Feature Extractor, Multi-view
Fusing Transformer (MFT), and Temporal Fusing Transformer (TFT). Feature
Extractor estimates the 2D pose from each image and encodes the predicted
coordinates and confidence into feature embedding for further 3D pose
inference. It discards the image features and focuses on lifting the 2D pose
into the 3D pose, making the subsequent modules computationally lightweight
enough to handle videos. MFT fuses the features of a varying number of views
with a relative-attention block. It adaptively measures the implicit
relationship between each pair of views and reconstructs the features. TFT
aggregates the features of the whole sequence and predicts 3D pose via a
transformer, which is adaptive to the length of the video and takes full
advantage of the temporal information. With these modules, MTF-Transformer
handles different application scenes, varying from a monocular-single-image to
multi-view-video, and the camera calibration is avoidable. We demonstrate
quantitative and qualitative results on the Human3.6M, TotalCapture, and KTH
Multiview Football II. Compared with state-of-the-art methods with camera
parameters, experiments show that MTF-Transformer not only obtains comparable
results but also generalizes well to dynamic capture with an arbitrary number
of unseen views. Code is available in
https://github.com/lelexx/MTF-Transformer.
- Abstract(参考訳): 現実的な応用として、HPE(3D Human Pose Estimation)は、ビューの数、ビデオシーケンスの長さ、カメラキャリブレーションの使用の有無など、様々な要素に直面している。
そこで我々はMTF変換器(Multi-view and Temporal Fusing Transformer)という統合フレームワークを提案する。
MTF-Transformer は Feature Extractor, Multi-view Fusing Transformer (MFT), Temporal Fusing Transformer (TFT) から構成される。
Feature Extractorは、各画像から2Dのポーズを推定し、予測された座標と信頼を3Dのポーズ推論のために特徴埋め込みにエンコードする。
画像の特徴を捨てて、2Dのポーズを3Dのポーズに上げることに集中し、その後のモジュールはビデオを扱うのに十分軽量になる。
MFTは、様々な数のビューの特徴を相対的アテンションブロックで融合させる。
それぞれのビュー間の暗黙の関係を適応的に測定し、特徴を再構築する。
tftは、全シーケンスの特徴を集約し、ビデオの長さに適応し、時間的情報を最大限活用したトランスフォーマーを介して3dポーズを予測する。
これらのモジュールにより、MTF-Transformerはモノクロ・シングル画像からマルチビュービデオまで様々なアプリケーションシーンを処理し、カメラキャリブレーションは回避できる。
我々は,Human3.6M,TotalCapture,KTH Multiview Football IIの定量的,定性的な結果を示す。
カメラパラメータを用いた最先端の手法と比較して、MTF-Transformerは同等の結果を得るだけでなく、任意の数の未知のビューで動的キャプチャーを一般化する。
コードはhttps://github.com/lelexx/MTF-Transformerで入手できる。
関連論文リスト
- Human Mesh Recovery from Arbitrary Multi-view Images [57.969696744428475]
任意の多視点画像からU-HMR(Unified Human Mesh Recovery)を分離・征服する枠組みを提案する。
特にU-HMRは、分離された構造と、カメラとボディーデカップリング(CBD)、カメラポーズ推定(CPE)、任意のビューフュージョン(AVF)の2つの主要コンポーネントから構成されている。
我々は、Human3.6M、MPI-INF-3DHP、TotalCaptureの3つの公開データセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-03-19T04:47:56Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Uplift and Upsample: Efficient 3D Human Pose Estimation with Uplifting
Transformers [28.586258731448687]
時間的にスパースな2Dポーズシーケンスを操作できるTransformerベースのポーズアップリフト方式を提案する。
本稿では,Transformerブロック内の時間的アップサンプリングにマスク付きトークンモデリングをどのように利用できるかを示す。
我々は,Human3.6M と MPI-INF-3DHP の2つのベンチマークデータセットを用いて評価を行った。
論文 参考訳(メタデータ) (2022-10-12T12:00:56Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation [4.603321798937854]
Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2022-05-25T09:26:42Z) - Video Transformers: A Survey [42.314208650554264]
ビデオデータのモデル化にトランスフォーマーを適用するための貢献とトレンドについて検討する。
具体的には、ビデオの埋め込みとトークン化の方法を掘り下げて、大きなCNNバックボーンの非常にウィドスプレッドな使用法を見つけます。
また,ビデオトランスフォーマーの訓練に使用される自己監督的損失の分析を行った。
論文 参考訳(メタデータ) (2022-01-16T07:31:55Z) - TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation [21.37032015978738]
マルチビュー3Dポーズ推定のためのトランスフォーマーフレームワークを提案する。
従来のマルチモーダルトランスにインスパイアされて,TransFusionと呼ばれる統一トランスフォーマーアーキテクチャを設計する。
本稿では,3次元位置情報をトランスモデルにエンコードするためのエピポーラ場の概念を提案する。
論文 参考訳(メタデータ) (2021-10-18T18:08:18Z) - FLEX: Parameter-free Multi-view 3D Human Motion Reconstruction [70.09086274139504]
マルチビューアルゴリズムはカメラパラメータ、特にカメラ間の相対的な位置に強く依存します。
エンドツーエンドのパラメータフリーマルチビューモデルであるFLEXを紹介します。
Human3.6MおよびKTH Multi-view Football IIデータセットの結果を実証する。
論文 参考訳(メタデータ) (2021-05-05T09:08:12Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。