論文の概要: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object
Reconstruction
- arxiv url: http://arxiv.org/abs/2311.14189v1
- Date: Thu, 23 Nov 2023 20:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 16:28:46.137160
- Title: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object
Reconstruction
- Title(参考訳): HACDによる単眼ハンドヘルド物体再建のための条件拡散
- Authors: Bowen Fu, Yan Di, Chenyangguang Zhang, Gu Wang, Ziqin Huang, Zhiying
Leng, Fabian Manhardt, Xiangyang Ji and Federico Tombari
- Abstract要約: 単一のRGBイメージから手持ちのオブジェクトを、既知の3Dオブジェクトテンプレート、カテゴリ事前、あるいは深さ情報なしで再構築することは、コンピュータビジョンにおいて不可欠だが困難な問題である。
単眼ハンドヘルドオブジェクト再構成(HACD)のためのハンド・アウェア拡散条件を提案し,2つの側面のハンド・オブジェクト間相互作用をモデル化した。
- 参考スコア(独自算出の注目度): 77.29252746728388
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing hand-held objects from a single RGB image without known 3D
object templates, category prior, or depth information is a vital yet
challenging problem in computer vision. In contrast to prior works that utilize
deterministic modeling paradigms, which make it hard to account for the
uncertainties introduced by hand- and self-occlusion, we employ a probabilistic
point cloud denoising diffusion model to tackle the above challenge. In this
work, we present Hand-Aware Conditional Diffusion for monocular hand-held
object reconstruction (HACD), modeling the hand-object interaction in two
aspects. First, we introduce hand-aware conditioning to model hand-object
interaction from both semantic and geometric perspectives. Specifically, a
unified hand-object semantic embedding compensates for the 2D local feature
deficiency induced by hand occlusion, and a hand articulation embedding further
encodes the relationship between object vertices and hand joints. Second, we
propose a hand-constrained centroid fixing scheme, which utilizes hand vertices
priors to restrict the centroid deviation of partially denoised point cloud
during diffusion and reverse process. Removing the centroid bias interference
allows the diffusion models to focus on the reconstruction of shape, thus
enhancing the stability and precision of local feature projection. Experiments
on the synthetic ObMan dataset and two real-world datasets, HO3D and MOW,
demonstrate our approach surpasses all existing methods by a large margin.
- Abstract(参考訳): コンピュータビジョンでは、手持ちのオブジェクトを3dオブジェクトのテンプレートやカテゴリの事前情報、奥行き情報なしで単一のrgbイメージから再構築することは、非常に難しい問題である。
手動・自己閉塞による不確実性を考慮しにくい決定論的モデリングパラダイムを利用する先行研究とは対照的に,我々は上記の課題に対処するために,確率的点雲デノナイズ拡散モデルを用いている。
そこで本研究では, モノクロハンドヘルドオブジェクト再構成(hacd)のためのハンドアウェア条件拡散(hand-aware conditional diffusion)を提案し, ハンドオブジェクト間相互作用を2つの側面からモデル化する。
まず,意味的視点と幾何学的視点の両方から手・物体間相互作用をモデル化する。
具体的には、統合された手オブジェクト意味埋め込みは、手閉塞によって引き起こされる2次元局所特徴障害を補うものであり、さらに手関節埋め込みは、対象の頂点と手関節の関係を符号化する。
第2に,手の頂点を前もって使用し,拡散・反転過程における部分分断点雲の遠心偏差を制限する手拘束型遠心固定スキームを提案する。
遠心バイアスの干渉を取り除くことにより、拡散モデルは形状の再構成に集中することができ、局所的特徴投影の安定性と精度が向上する。
ObManデータセットと2つの実世界のデータセット、HO3DとMOWの実験は、我々のアプローチが既存のすべてのメソッドを大きなマージンで上回っていることを実証している。
関連論文リスト
- Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。
本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文 参考訳(メタデータ) (2024-11-24T14:31:50Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Reference-Free Isotropic 3D EM Reconstruction using Diffusion Models [8.590026259176806]
本稿では、参照データや劣化過程に関する事前知識の制限を克服する拡散モデルに基づくフレームワークを提案する。
提案手法では, 2次元拡散モデルを用いて連続的に3次元ボリュームを再構成し, 高精度なサンプルデータに適している。
論文 参考訳(メタデータ) (2023-08-03T07:57:02Z) - A Probabilistic Attention Model with Occlusion-aware Texture Regression
for 3D Hand Reconstruction from a Single RGB Image [5.725477071353354]
深層学習のアプローチは、1枚のRGB画像から3Dの手の再構築に有望な結果を示している。
本稿では,モデルに基づくアプローチの堅牢性を実現するための新しい確率モデルを提案する。
本稿では,教師付きシナリオと弱教師付きシナリオの両方において,提案する確率モデルの柔軟性を実証する。
論文 参考訳(メタデータ) (2023-04-27T16:02:32Z) - Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models [33.343489006271255]
拡散モデルは、高品質なサンプルを持つ新しい最先端の生成モデルとして登場した。
そこで本研究では, モデルに基づく2次元拡散を, 全次元にわたるコヒーレントな再構成を達成できるように, 実験時の残りの方向で先行する2次元拡散を拡大することを提案する。
提案手法は,1つのコモディティGPU上で動作可能であり,新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-11-19T10:32:21Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。