論文の概要: DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models
- arxiv url: http://arxiv.org/abs/2211.16487v1
- Date: Tue, 29 Nov 2022 18:55:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 16:48:33.766704
- Title: DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models
- Title(参考訳): diffpose:拡散モデルを用いたマルチハイポテーゼ人のポーズ推定
- Authors: Karl Holmquist and Bastian Wandt
- Abstract要約: 与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
- 参考スコア(独自算出の注目度): 5.908471365011943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditionally, monocular 3D human pose estimation employs a machine learning
model to predict the most likely 3D pose for a given input image. However, a
single image can be highly ambiguous and induces multiple plausible solutions
for the 2D-3D lifting step which results in overly confident 3D pose
predictors. To this end, we propose \emph{DiffPose}, a conditional diffusion
model, that predicts multiple hypotheses for a given input image. In comparison
to similar approaches, our diffusion model is straightforward and avoids
intensive hyperparameter tuning, complex network structures, mode collapse, and
unstable training. Moreover, we tackle a problem of the common two-step
approach that first estimates a distribution of 2D joint locations via
joint-wise heatmaps and consecutively approximates them based on first- or
second-moment statistics. Since such a simplification of the heatmaps removes
valid information about possibly correct, though labeled unlikely, joint
locations, we propose to represent the heatmaps as a set of 2D joint candidate
samples. To extract information about the original distribution from these
samples we introduce our \emph{embedding transformer} that conditions the
diffusion model. Experimentally, we show that DiffPose slightly improves upon
the state of the art for multi-hypothesis pose estimation for simple poses and
outperforms it by a large margin for highly ambiguous poses.
- Abstract(参考訳): 伝統的に、単眼の3Dポーズ推定は機械学習モデルを用いて、与えられた入力画像に対する最も可能性の高い3Dポーズを予測する。
しかし、単一の画像は極めて曖昧であり、2D-3D昇降ステップに対して複数の可視解を誘導し、3Dポーズ予測器を過度に確信させる。
この目的のために,与えられた入力画像に対して複数の仮説を予測する条件拡散モデルである \emph{DiffPose} を提案する。
同様のアプローチに比べて拡散モデルは単純であり、集中型ハイパーパラメータチューニング、複雑なネットワーク構造、モード崩壊、不安定なトレーニングを避ける。
さらに, 2次元関節位置の分布を, ジョイントワイズヒートマップを用いて推定し, 1次あるいは2次モーメント統計に基づいて連続的に近似する, 共通2段階法の問題にも対処した。
このようなヒートマップの単純化により、おそらく正しいと思われる情報が削除されるが、ありそうにないジョイントの位置を示すため、ヒートマップを2次元ジョイント候補のセットとして表現することを提案する。
これらのサンプルから元の分布に関する情報を抽出するために,拡散モデルを条件としたemph{embedding transformer}を提案する。
実験により, diffpose は, 単純なポーズに対するマルチハイポテーゼのポーズ推定の技術を多少改善し, 高いあいまいなポーズに対して大きなマージンで上回ることを示した。
関連論文リスト
- Utilizing Uncertainty in 2D Pose Detectors for Probabilistic 3D Human Mesh Recovery [23.473909489868454]
確率論的アプローチは 有望な3次元メッシュ上の分布を学習する
この目的関数だけでは、全分布を捉えるのに十分ではないことを示す。
トレーニング中,被験者のセグメンテーションマスクを利用することで,不正なサンプルの数を著しく削減できることを実証した。
論文 参考訳(メタデータ) (2024-11-25T11:13:12Z) - ADen: Adaptive Density Representations for Sparse-view Camera Pose Estimation [17.097170273209333]
画像からカメラのポーズを復元することは、3Dコンピュータビジョンの基本課題である。
最近のデータ駆動型アプローチは、6DoFカメラのポーズを後退させたり、回転を確率分布として定式化したりすることで、カメラのポーズを直接出力することを目指している。
本稿では, ジェネレータと識別器を用いて2つのフレームワークを統合することを提案する。
論文 参考訳(メタデータ) (2024-08-16T22:45:46Z) - Diffusion-based Pose Refinement and Muti-hypothesis Generation for 3D
Human Pose Estimaiton [27.708016152889787]
従来の3次元人物姿勢推定モデル(3DHPE)は、複数の仮説を生成することで、ポーズの精度を高めることを目的としていた。
ほとんどの仮説は真のポーズから大きく逸脱した。
決定論的モデルと比較すると、確率論的モデルにおける過剰な不確実性は、単一仮説予測においてより弱い性能をもたらす。
本稿では,逆拡散による決定論的モデルの出力を改良する拡散に基づく DRPose というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-10T04:07:50Z) - ManiPose: Manifold-Constrained Multi-Hypothesis 3D Human Pose Estimation [54.86887812687023]
ほとんどの3D-HPE法は回帰モデルに依存しており、入力と出力の1対1のマッピングを前提としている。
提案するManiPoseは,2次元入力毎に複数の候補3次元ポーズを提案可能な,新しい多様体制約型マルチハイポテーシスモデルである。
従来のマルチハイブリッドアプローチとは異なり、我々のソリューションは完全に教師付きであり、複雑な生成モデルに依存しない。
論文 参考訳(メタデータ) (2023-12-11T13:50:10Z) - HuManiFlow: Ancestor-Conditioned Normalising Flows on SO(3) Manifolds
for Human Pose and Shape Distribution Estimation [27.14060158187953]
近年のアプローチでは、画像上に条件付き3次元ポーズと形状パラメータの確率分布が予測されている。
これらの手法が3つの重要な特性のトレードオフを示すことを示す。
我々の手法であるHuManiFlowは、同時に正確で一貫性があり多様な分布を予測する。
論文 参考訳(メタデータ) (2023-05-11T16:49:19Z) - Diffusion-Based 3D Human Pose Estimation with Multi-Hypothesis
Aggregation [64.874000550443]
ジョイントワイズ・リジェクション・ベース・マルチハイブリッド・アグリゲーション(JPMA)を用いた拡散型3次元ポス推定法を提案する。
提案したJPMAは,D3DPが生成する複数の仮説を1つの3次元ポーズにまとめて実用的に利用する。
提案手法は, 最先端の決定論的アプローチと確率論的アプローチをそれぞれ1.5%, 8.9%上回った。
論文 参考訳(メタデータ) (2023-03-21T04:00:47Z) - A generic diffusion-based approach for 3D human pose prediction in the
wild [68.00961210467479]
3D人間のポーズ予測、すなわち、過去の観察されたポーズのシーケンスが与えられた後の人間の3Dポーズのシーケンスを予測することは、困難な時間課題である。
本稿では,不完全な要素(予測や観測に関係しない)をノイズとして扱える統一的な定式化法を提案し,それらを認知し,妥当なポーズを予測する条件拡散モデルを提案する。
本研究は,4つの標準データセットについて検討し,現状よりも大幅に改善された。
論文 参考訳(メタデータ) (2022-10-11T17:59:54Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z) - Multi-person 3D Pose Estimation in Crowded Scenes Based on Multi-View
Geometry [62.29762409558553]
マルチパーソナライズされた3次元ポーズ推定手法における特徴マッチングと深さ推定のコアは、エピポーラ制約である。
スパサーの群衆シーンにおけるこの定式化の良好なパフォーマンスにもかかわらず、その効果はより密集した群衆の状況下でしばしば挑戦される。
本稿では,マルチパーソン3次元ポーズ推定式から脱却し,群衆ポーズ推定として再編成する。
論文 参考訳(メタデータ) (2020-07-21T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。