論文の概要: HandFlow: Quantifying View-Dependent 3D Ambiguity in Two-Hand
Reconstruction with Normalizing Flow
- arxiv url: http://arxiv.org/abs/2210.01692v1
- Date: Tue, 4 Oct 2022 15:42:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:41:45.322237
- Title: HandFlow: Quantifying View-Dependent 3D Ambiguity in Two-Hand
Reconstruction with Normalizing Flow
- Title(参考訳): HandFlow:正規化フローを用いた両手再建におけるビュー依存3次元曖昧さの定量化
- Authors: Jiayi Wang and Diogo Luvizon and Franziska Mueller and Florian Bernard
and Adam Kortylewski and Dan Casas and Christian Theobalt
- Abstract要約: 条件付き正規化フローフレームワークにおける可塑性再構成の分布を明示的にモデル化する。
この課題に対して,明示的な曖昧さモデリングが適していることを示す。
- 参考スコア(独自算出の注目度): 73.7895717883622
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Reconstructing two-hand interactions from a single image is a challenging
problem due to ambiguities that stem from projective geometry and heavy
occlusions. Existing methods are designed to estimate only a single pose,
despite the fact that there exist other valid reconstructions that fit the
image evidence equally well. In this paper we propose to address this issue by
explicitly modeling the distribution of plausible reconstructions in a
conditional normalizing flow framework. This allows us to directly supervise
the posterior distribution through a novel determinant magnitude
regularization, which is key to varied 3D hand pose samples that project well
into the input image. We also demonstrate that metrics commonly used to assess
reconstruction quality are insufficient to evaluate pose predictions under such
severe ambiguity. To address this, we release the first dataset with multiple
plausible annotations per image called MultiHands. The additional annotations
enable us to evaluate the estimated distribution using the maximum mean
discrepancy metric. Through this, we demonstrate the quality of our
probabilistic reconstruction and show that explicit ambiguity modeling is
better-suited for this challenging problem.
- Abstract(参考訳): 一つの画像から両手の相互作用を再構築することは、射影幾何学と重閉塞から生じる曖昧さのために難しい問題である。
既存の手法は、画像証拠に等しく適合する他の有効な再構成が存在するにもかかわらず、1つのポーズのみを推定するように設計されている。
本稿では,条件付き正規化フローフレームワークにおける可塑性再構成の分布を明示的にモデル化し,この問題に対処する。
これにより、入力画像によく投影される様々な3次元手ポーズサンプルの鍵となる、新しい行列等級正規化により、後部分布を直接監視することができる。
また, 復元品質を評価するためによく用いられる指標は, 厳密なあいまいさ下でのポーズ予測には不十分であることを示す。
これを解決するために、MultiHandsと呼ばれる画像毎に複数の可視アノテーションを持つ最初のデータセットをリリースする。
追加のアノテーションにより、推定分布を最大平均不一致メトリックを用いて評価できる。
これを通じて,確率的再構成の質を実証し,この課題に明確なあいまいさモデリングが適していることを示す。
関連論文リスト
- UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
粗大なパラダイムに基づいて、UNOPoseはSE(3)不変の参照フレームを構築し、オブジェクト表現を標準化する。
重なり合う領域内に存在すると予測される確率に基づいて、各対応の重みを補正する。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - OFER: Occluded Face Expression Reconstruction [16.06622406877353]
OFERは,多彩で表現力に富んだ3次元顔を生成することのできる,単一画像の3次元顔再構成のための新しいアプローチである。
本稿では,予測された形状精度スコアに基づいて形状拡散ネットワークの出力をソートし,最適マッチングを選択する新しいランキング機構を提案する。
論文 参考訳(メタデータ) (2024-10-29T00:21:26Z) - DiffPose: Multi-hypothesis Human Pose Estimation using Diffusion models [5.908471365011943]
与えられた入力画像に対して複数の仮説を予測する条件拡散モデルであるemphDiffPoseを提案する。
DiffPoseは, 簡単なポーズの多面的ポーズを推定し, 極めてあいまいなポーズに対して大きなマージンで優れることを示す。
論文 参考訳(メタデータ) (2022-11-29T18:55:13Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Probabilistic Modeling for Human Mesh Recovery [73.11532990173441]
本稿では,2次元の証拠から3次元の人体復元の問題に焦点を当てた。
我々は,この問題を,入力から3Dポーズの分布へのマッピング学習として再考した。
論文 参考訳(メタデータ) (2021-08-26T17:55:11Z) - Implicit-PDF: Non-Parametric Representation of Probability Distributions
on the Rotation Manifold [47.31074799708132]
我々はSO(3)上の任意の非パラメトリック分布を推定する手法を提案する。
私たちのキーとなるアイデアは、入力画像と候補ポーズの確率を推定するニューラルネットワークで、分布を暗黙的に表現することです。
我々はPascal3D+とModelNet10-SO(3)ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-06-10T17:57:23Z) - Deep Bingham Networks: Dealing with Uncertainty and Ambiguity in Pose
Estimation [74.76155168705975]
Deep Bingham Networks (DBN)は、3Dデータに関するほぼすべての実生活アプリケーションで発生するポーズ関連の不確実性と曖昧性を扱うことができる。
DBNは、(i)異なる分布モードを生成できる多仮説予測ヘッドにより、アートダイレクトポーズ回帰ネットワークの状態を拡張する。
トレーニング中のモードや後方崩壊を回避し,数値安定性を向上させるための新しいトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-12-20T19:20:26Z) - Weakly Supervised Generative Network for Multiple 3D Human Pose
Hypotheses [74.48263583706712]
単一画像からの3次元ポーズ推定は、欠落した深さのあいまいさに起因する逆問題である。
逆問題に対処するために,弱い教師付き深層生成ネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T09:26:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。