論文の概要: TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation
- arxiv url: http://arxiv.org/abs/2110.09554v1
- Date: Mon, 18 Oct 2021 18:08:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-20 14:08:14.186283
- Title: TransFusion: Cross-view Fusion with Transformer for 3D Human Pose
Estimation
- Title(参考訳): transfusion:3次元ポーズ推定のためのtransfusionとtransformerのクロスビュー融合
- Authors: Haoyu Ma, Liangjian Chen, Deying Kong, Zhe Wang, Xingwei Liu, Hao
Tang, Xiangyi Yan, Yusheng Xie, Shih-Yao Lin, Xiaohui Xie
- Abstract要約: マルチビュー3Dポーズ推定のためのトランスフォーマーフレームワークを提案する。
従来のマルチモーダルトランスにインスパイアされて,TransFusionと呼ばれる統一トランスフォーマーアーキテクチャを設計する。
本稿では,3次元位置情報をトランスモデルにエンコードするためのエピポーラ場の概念を提案する。
- 参考スコア(独自算出の注目度): 21.37032015978738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating the 2D human poses in each view is typically the first step in
calibrated multi-view 3D pose estimation. But the performance of 2D pose
detectors suffers from challenging situations such as occlusions and oblique
viewing angles. To address these challenges, previous works derive
point-to-point correspondences between different views from epipolar geometry
and utilize the correspondences to merge prediction heatmaps or feature
representations. Instead of post-prediction merge/calibration, here we
introduce a transformer framework for multi-view 3D pose estimation, aiming at
directly improving individual 2D predictors by integrating information from
different views. Inspired by previous multi-modal transformers, we design a
unified transformer architecture, named TransFusion, to fuse cues from both
current views and neighboring views. Moreover, we propose the concept of
epipolar field to encode 3D positional information into the transformer model.
The 3D position encoding guided by the epipolar field provides an efficient way
of encoding correspondences between pixels of different views. Experiments on
Human 3.6M and Ski-Pose show that our method is more efficient and has
consistent improvements compared to other fusion methods. Specifically, we
achieve 25.8 mm MPJPE on Human 3.6M with only 5M parameters on 256 x 256
resolution.
- Abstract(参考訳): 各ビューにおける2次元のポーズの推定は、通常、マルチビューの3dポーズのキャリブレーションの最初のステップである。
しかし、2dポーズ検出器の性能は、咬合や斜め視角などの困難な状況に苦しむ。
これらの課題に対処するために、先行研究はエピポーラ幾何から異なる視点間のポイント・ツー・ポイント対応を導出し、対応を利用して予測ヒートマップや特徴表現をマージする。
ここでは、予測後マージ/校正の代わりに、異なる視点からの情報を統合して個々の2次元予測器を直接改善することを目的とした、多視点3次元ポーズ推定のためのトランスフォーマーフレームワークを導入する。
従来のマルチモーダルトランスフォーマーに触発されて、transfusionという統一トランスフォーマーアーキテクチャを設計し、現在のビューと隣り合うビューの両方からヒントを得る。
さらに,3次元位置情報をトランスモデルに符号化するためのエピポーラ場の概念を提案する。
エピポーラフィールドによって誘導される3D位置符号化は、異なるビューの画素間の対応を効率的に符号化する方法を提供する。
ヒト3.6mおよびスキー場における実験により,本手法はより効率的で,他の融合法と比較して一貫した改良が得られた。
具体的には、256 x 256の解像度で5Mパラメータしか持たないHuman 3.6Mで25.8mmMPJPEを達成する。
関連論文リスト
- Enhancing 3D Human Pose Estimation Amidst Severe Occlusion with Dual Transformer Fusion [13.938406073551844]
本稿では,DTF(Dual Transformer Fusion)アルゴリズムを提案する。
正確な3Dヒューマンポース推定を実現するために,本手法では,まず2つの中間ビューを生成する革新的なDTFアーキテクチャを利用する。
このアプローチは、両方のデータセットで既存の最先端メソッドよりも優れており、大幅に改善されています。
論文 参考訳(メタデータ) (2024-10-06T18:15:27Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Geometry-Biased Transformer for Robust Multi-View 3D Human Pose
Reconstruction [3.069335774032178]
マルチビュー2次元ポーズシーケンスから3次元ポーズを推定するエンコーダ・デコーダ変換アーキテクチャを提案する。
我々は、Human3.6M、CMU Panoptic、Occlusion-Personsの3つのベンチマーク公開データセットで実験を行った。
論文 参考訳(メタデータ) (2023-12-28T16:30:05Z) - 3D Vision with Transformers: A Survey [114.86385193388439]
自然言語処理におけるトランスフォーマーアーキテクチャの成功は、コンピュータビジョン分野の注目を集めている。
本稿では,異なる3次元視覚タスクのための100以上のトランスフォーマー手法の体系的,徹底的なレビューを行う。
我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。
論文 参考訳(メタデータ) (2022-08-08T17:59:11Z) - VTP: Volumetric Transformer for Multi-view Multi-person 3D Pose
Estimation [4.603321798937854]
Volumetric Transformer Pose estimator (VTP) はマルチビュー・マルチパーソン・ヒューマン・ポーズ推定のための最初の3Dトランスフォーマー・フレームワークである。
VTPは、すべてのカメラビューの2Dキーポイントから機能を集約し、3Dボクセル空間における関係をエンドツーエンドで学習する。
論文 参考訳(メタデータ) (2022-05-25T09:26:42Z) - CrossFormer: Cross Spatio-Temporal Transformer for 3D Human Pose
Estimation [24.08170512746056]
3次元人間のポーズ推定は、身体部分間の幾何学的依存関係を符号化し、運動的制約を強制することによって行うことができる。
最近のTransformerは、空間領域と時間領域における関節間の長距離依存関係を符号化するために採用されている。
フレーム間の微妙な変化を捉えるのに重要な身体関節の豊かな表現を特徴とする新しいポーズ推定変換器を提案する。
論文 参考訳(メタデータ) (2022-03-24T23:40:11Z) - Direct Multi-view Multi-person 3D Pose Estimation [138.48139701871213]
マルチビュー画像からマルチパーソン3Dポーズを推定するためのMulti-view Pose Transformer(MvP)を提案する。
MvPは、中間タスクに頼ることなく、複数の人物の3Dポーズを直接クリーンで効率的な方法で回帰する。
我々は,MvPモデルがより効率的でありながら,いくつかのベンチマークにおいて最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-07T13:09:20Z) - Multi-View Multi-Person 3D Pose Estimation with Plane Sweep Stereo [71.59494156155309]
既存のマルチビュー3Dポーズ推定手法は、複数のカメラビューからグループ2Dポーズ検出に対するクロスビュー対応を明確に確立する。
平面スイープステレオに基づくマルチビュー3Dポーズ推定手法を提案し、クロスビュー融合と3Dポーズ再構築を1ショットで共同で解決します。
論文 参考訳(メタデータ) (2021-04-06T03:49:35Z) - 3D Human Pose Estimation with Spatial and Temporal Transformers [59.433208652418976]
PoseFormerは、3D人間のポーズ推定のための純粋にトランスフォーマーベースのアプローチです。
近年の視覚変換器の発展に触発されて,空間時間変換器構造を設計する。
提案手法を2つの人気ベンチマークと標準ベンチマークで定量的に定性的に評価する。
論文 参考訳(メタデータ) (2021-03-18T18:14:37Z) - Epipolar Transformers [39.98487207625999]
同期型および校正型マルチビューセットアップにおける3次元関節のローカライズのための一般的なアプローチは、2段階からなる。
2D検出器は、3Dでよりうまく解決できる可能性のある難問の解決に限られている。
本研究では,2次元検出器の3次元特徴を生かして2次元ポーズ推定を改善する「エピポーラ変圧器」を提案する。
論文 参考訳(メタデータ) (2020-05-10T02:22:54Z) - Fusing Wearable IMUs with Multi-View Images for Human Pose Estimation: A
Geometric Approach [76.10879433430466]
多視点画像と人手足に装着したIMUから3次元人間のポーズを推定する。
まず2つの信号から2Dのポーズを検出し、3D空間に持ち上げる。
単純な2段階のアプローチは、公開データセット上の大きなマージンによる最先端のエラーを低減する。
論文 参考訳(メタデータ) (2020-03-25T00:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。