論文の概要: MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation
- arxiv url: http://arxiv.org/abs/2111.12707v1
- Date: Wed, 24 Nov 2021 18:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-25 14:09:35.847212
- Title: MHFormer: Multi-Hypothesis Transformer for 3D Human Pose Estimation
- Title(参考訳): mhformer: 3次元ポーズ推定のためのマルチハイポテーゼトランス
- Authors: Wenhao Li, Hong Liu, Hao Tang, Pichao Wang, Luc Van Gool
- Abstract要約: モノクロビデオから3D人間のポーズを推定することは、深さのあいまいさと自己排他性のために難しい課題である。
本稿では,複数の確率的ポーズ仮説を表現するために学習する多相変換器(MHFormer)を提案する。
MHFormerは、Human3.6MとMPI-INF-3DHPの2つの挑戦的なデータセットで最先端の結果を得る。
- 参考スコア(独自算出の注目度): 88.73883883964048
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Estimating 3D human poses from monocular videos is a challenging task due to
depth ambiguity and self-occlusion. Most existing works attempt to solve both
issues by exploiting spatial and temporal relationships. However, those works
ignore the fact that it is an inverse problem where multiple feasible solutions
(i.e., hypotheses) exist. To relieve this limitation, we propose a
Multi-Hypothesis Transformer (MHFormer) that learns spatio-temporal
representations of multiple plausible pose hypotheses. In order to effectively
model multi-hypothesis dependencies and build strong relationships across
hypothesis features, the task is decomposed into three stages: (i) Generate
multiple initial hypothesis representations; (ii) Model self-hypothesis
communication, merge multiple hypotheses into a single converged representation
and then partition it into several diverged hypotheses; (iii) Learn
cross-hypothesis communication and aggregate the multi-hypothesis features to
synthesize the final 3D pose. Through the above processes, the final
representation is enhanced and the synthesized pose is much more accurate.
Extensive experiments show that MHFormer achieves state-of-the-art results on
two challenging datasets: Human3.6M and MPI-INF-3DHP. Without bells and
whistles, its performance surpasses the previous best result by a large margin
of 3% on Human3.6M. Code and models are available at
https://github.com/Vegetebird/MHFormer.
- Abstract(参考訳): 単眼ビデオから3d人間のポーズを推定することは、深いあいまいさと自己完結性のために難しい課題である。
現存するほとんどの研究は、空間的および時間的関係を利用して、両方の問題を解決しようとする。
しかし、これらの研究は、複数の可能な解(すなわち仮説)が存在する逆問題であるという事実を無視している。
この制限を緩和するために,多元的ポーズ仮説の時空間表現を学習するマルチハイポテーゼトランス(mhformer)を提案する。
多仮説の依存関係を効果的にモデル化し、仮説の特徴をまたいだ強い関係を構築するために、タスクは3つの段階に分けられる。
i) 複数の初期仮説表現を生成すること
(ii)モデル自己仮説通信は、複数の仮説を単一の収束表現にマージし、それをいくつかの分岐仮説に分割する。
3) クロスハイポシーコミュニケーションを学び, 複数ハイポシー特徴を集約して最終3次元ポーズを合成する。
以上のプロセスを通じて最終表現が強化され、合成されたポーズの方がはるかに正確である。
大規模な実験により、MHFormerはHuman3.6MとMPI-INF-3DHPの2つの挑戦的なデータセットで最先端の結果が得られることが示された。
ベルとホイッスルがなければ、その性能はHuman3.6Mで3%の差で前回の最高値を上回った。
コードとモデルはhttps://github.com/vegetebird/mhformerで入手できる。
関連論文リスト
- Platypose: Calibrated Zero-Shot Multi-Hypothesis 3D Human Motion Estimation [6.061037203796638]
Platyposeは、ゼロショット3Dポーズシーケンス推定のために、人間の3Dモーションシーケンスに事前訓練された拡散モデルを使用するフレームワークである。
Platyposeは、Human3.6M、MPI-INF-3DHP、および3DPWの静的ポーズでテストした場合、最先端のキャリブレーションと競合するジョイントエラーを実現する。
論文 参考訳(メタデータ) (2024-03-10T10:30:34Z) - Diffusion-based Pose Refinement and Muti-hypothesis Generation for 3D
Human Pose Estimaiton [27.708016152889787]
従来の3次元人物姿勢推定モデル(3DHPE)は、複数の仮説を生成することで、ポーズの精度を高めることを目的としていた。
ほとんどの仮説は真のポーズから大きく逸脱した。
決定論的モデルと比較すると、確率論的モデルにおける過剰な不確実性は、単一仮説予測においてより弱い性能をもたらす。
本稿では,逆拡散による決定論的モデルの出力を改良する拡散に基づく DRPose というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-10T04:07:50Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - AdaptivePose++: A Powerful Single-Stage Network for Multi-Person Pose
Regression [66.39539141222524]
そこで本研究では,ヒトの部位を適応点として表現し,微細な身体表現法を提案する。
提案するボディ表現では,AdaptivePoseと呼ばれる,コンパクトなシングルステージ多人数ポーズ回帰ネットワークを提供する。
本稿では,AdaptivePoseの有効性を検証するために,2D/3D多人数ポーズ推定タスクにAdaptivePoseを用いる。
論文 参考訳(メタデータ) (2022-10-08T12:54:20Z) - 3D Multi-bodies: Fitting Sets of Plausible 3D Human Models to Ambiguous
Image Data [77.57798334776353]
単眼・部分閉塞視からヒトの高密度3次元再構成を実現することの問題点を考察する。
身体の形状やポーズをパラメータ化することで、あいまいさをより効果的にモデル化できることを示唆する。
提案手法は, 3次元人間の標準ベンチマークにおいて, あいまいなポーズ回復において, 代替手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-02T13:55:31Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。