論文の概要: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object
Reconstruction
- arxiv url: http://arxiv.org/abs/2311.14189v1
- Date: Thu, 23 Nov 2023 20:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:28:46.137160
- Title: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object
Reconstruction
- Title(参考訳): HACDによる単眼ハンドヘルド物体再建のための条件拡散
- Authors: Bowen Fu, Yan Di, Chenyangguang Zhang, Gu Wang, Ziqin Huang, Zhiying
Leng, Fabian Manhardt, Xiangyang Ji and Federico Tombari
- Abstract要約: 単一のRGBイメージから手持ちのオブジェクトを、既知の3Dオブジェクトテンプレート、カテゴリ事前、あるいは深さ情報なしで再構築することは、コンピュータビジョンにおいて不可欠だが困難な問題である。
単眼ハンドヘルドオブジェクト再構成(HACD)のためのハンド・アウェア拡散条件を提案し,2つの側面のハンド・オブジェクト間相互作用をモデル化した。
- 参考スコア(独自算出の注目度): 77.29252746728388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing hand-held objects from a single RGB image without known 3D
object templates, category prior, or depth information is a vital yet
challenging problem in computer vision. In contrast to prior works that utilize
deterministic modeling paradigms, which make it hard to account for the
uncertainties introduced by hand- and self-occlusion, we employ a probabilistic
point cloud denoising diffusion model to tackle the above challenge. In this
work, we present Hand-Aware Conditional Diffusion for monocular hand-held
object reconstruction (HACD), modeling the hand-object interaction in two
aspects. First, we introduce hand-aware conditioning to model hand-object
interaction from both semantic and geometric perspectives. Specifically, a
unified hand-object semantic embedding compensates for the 2D local feature
deficiency induced by hand occlusion, and a hand articulation embedding further
encodes the relationship between object vertices and hand joints. Second, we
propose a hand-constrained centroid fixing scheme, which utilizes hand vertices
priors to restrict the centroid deviation of partially denoised point cloud
during diffusion and reverse process. Removing the centroid bias interference
allows the diffusion models to focus on the reconstruction of shape, thus
enhancing the stability and precision of local feature projection. Experiments
on the synthetic ObMan dataset and two real-world datasets, HO3D and MOW,
demonstrate our approach surpasses all existing methods by a large margin.
- Abstract(参考訳): コンピュータビジョンでは、手持ちのオブジェクトを3dオブジェクトのテンプレートやカテゴリの事前情報、奥行き情報なしで単一のrgbイメージから再構築することは、非常に難しい問題である。
手動・自己閉塞による不確実性を考慮しにくい決定論的モデリングパラダイムを利用する先行研究とは対照的に,我々は上記の課題に対処するために,確率的点雲デノナイズ拡散モデルを用いている。
そこで本研究では, モノクロハンドヘルドオブジェクト再構成(hacd)のためのハンドアウェア条件拡散(hand-aware conditional diffusion)を提案し, ハンドオブジェクト間相互作用を2つの側面からモデル化する。
まず,意味的視点と幾何学的視点の両方から手・物体間相互作用をモデル化する。
具体的には、統合された手オブジェクト意味埋め込みは、手閉塞によって引き起こされる2次元局所特徴障害を補うものであり、さらに手関節埋め込みは、対象の頂点と手関節の関係を符号化する。
第2に,手の頂点を前もって使用し,拡散・反転過程における部分分断点雲の遠心偏差を制限する手拘束型遠心固定スキームを提案する。
遠心バイアスの干渉を取り除くことにより、拡散モデルは形状の再構成に集中することができ、局所的特徴投影の安定性と精度が向上する。
ObManデータセットと2つの実世界のデータセット、HO3DとMOWの実験は、我々のアプローチが既存のすべてのメソッドを大きなマージンで上回っていることを実証している。
関連論文リスト
- 3D Hand Reconstruction via Aggregating Intra and Inter Graphs Guided by
Prior Knowledge for Hand-Object Interaction Scenario [8.364378460776832]
モデルベースおよびモデルフリーアプローチの利点を生かした3次元ハンドリコンストラクションネットワークを提案する。
まず,2次元関節から直接のMANOポーズパラメータ回帰モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-04T05:11:26Z) - NCRF: Neural Contact Radiance Fields for Free-Viewpoint Rendering of
Hand-Object Interaction [19.957593804898064]
ビデオのスパース集合から手動物体間相互作用を再構成するための新しいフリーポイントレンダリングフレームワークであるニューラルコンタクトレーダランスフィールド(NCRF)を提案する。
私たちはこれらの重要なコンポーネントを共同で学び、視覚的および幾何学的制約で相互に助け合い、規則化します。
提案手法は、レンダリング品質とポーズ推定精度の両方の観点から、現在の最先端技術よりも優れています。
論文 参考訳(メタデータ) (2024-02-08T10:09:12Z) - HOLD: Category-agnostic 3D Reconstruction of Interacting Hands and
Objects from Video [70.11702620562889]
HOLD - 単分子インタラクションビデオから手とオブジェクトを共同で再構成する最初のカテゴリーに依存しない方法。
我々は,3次元手と物体を2次元画像から切り離すことができる構成的明瞭な暗黙モデルを開発した。
本手法は,3次元手オブジェクトアノテーションに頼らず,組込みと組込みの両面において,完全教師付きベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-30T10:50:35Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Deformer: Dynamic Fusion Transformer for Robust Hand Pose Estimation [59.3035531612715]
既存の方法では、手のこもりが強かったり、ぼやけたりすると、手のポーズが難しい場合が多い。
ビデオでは、手の動きによって、片方のフレームに隠されたり、ぼやけたりして、手のさまざまな部分を観察することができる。
画像内の手の部分間の関係を暗黙的に推論するフレームワークであるDeformerを提案する。
論文 参考訳(メタデータ) (2023-03-09T02:24:30Z) - Monocular 3D Reconstruction of Interacting Hands via Collision-Aware
Factorized Refinements [96.40125818594952]
単眼のRGB画像から3Dインタラクションハンドを再構築する試みを初めて行った。
提案手法では, 高精度な3次元ポーズと最小の衝突で3次元ハンドメッシュを生成することができる。
論文 参考訳(メタデータ) (2021-11-01T08:24:10Z) - Measuring Generalisation to Unseen Viewpoints, Articulations, Shapes and
Objects for 3D Hand Pose Estimation under Hand-Object Interaction [137.28465645405655]
HANDS'19は、現在の3Dハンドポーズ推定器(HPE)がトレーニングセットのポーズを補間し、外挿する能力を評価するための課題である。
本研究では,最先端手法の精度が低下し,トレーニングセットから外れたポーズでほとんど失敗することを示す。
論文 参考訳(メタデータ) (2020-03-30T19:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。