Fugu-MT 論文翻訳(概要): HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object Reconstruction

論文の概要: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object Reconstruction

arxiv url: http://arxiv.org/abs/2311.14189v1
Date: Thu, 23 Nov 2023 20:14:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-27 16:28:46.137160
Title: HACD: Hand-Aware Conditional Diffusion for Monocular Hand-Held Object Reconstruction
Title（参考訳）: HACDによる単眼ハンドヘルド物体再建のための条件拡散
Authors: Bowen Fu, Yan Di, Chenyangguang Zhang, Gu Wang, Ziqin Huang, Zhiying Leng, Fabian Manhardt, Xiangyang Ji and Federico Tombari
Abstract要約: 単一のRGBイメージから手持ちのオブジェクトを、既知の3Dオブジェクトテンプレート、カテゴリ事前、あるいは深さ情報なしで再構築することは、コンピュータビジョンにおいて不可欠だが困難な問題である。単眼ハンドヘルドオブジェクト再構成(HACD)のためのハンド・アウェア拡散条件を提案し,2つの側面のハンド・オブジェクト間相互作用をモデル化した。
参考スコア（独自算出の注目度）: 77.29252746728388
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Reconstructing hand-held objects from a single RGB image without known 3D object templates, category prior, or depth information is a vital yet challenging problem in computer vision. In contrast to prior works that utilize deterministic modeling paradigms, which make it hard to account for the uncertainties introduced by hand- and self-occlusion, we employ a probabilistic point cloud denoising diffusion model to tackle the above challenge. In this work, we present Hand-Aware Conditional Diffusion for monocular hand-held object reconstruction (HACD), modeling the hand-object interaction in two aspects. First, we introduce hand-aware conditioning to model hand-object interaction from both semantic and geometric perspectives. Specifically, a unified hand-object semantic embedding compensates for the 2D local feature deficiency induced by hand occlusion, and a hand articulation embedding further encodes the relationship between object vertices and hand joints. Second, we propose a hand-constrained centroid fixing scheme, which utilizes hand vertices priors to restrict the centroid deviation of partially denoised point cloud during diffusion and reverse process. Removing the centroid bias interference allows the diffusion models to focus on the reconstruction of shape, thus enhancing the stability and precision of local feature projection. Experiments on the synthetic ObMan dataset and two real-world datasets, HO3D and MOW, demonstrate our approach surpasses all existing methods by a large margin.
Abstract（参考訳）: コンピュータビジョンでは、手持ちのオブジェクトを3dオブジェクトのテンプレートやカテゴリの事前情報、奥行き情報なしで単一のrgbイメージから再構築することは、非常に難しい問題である。手動・自己閉塞による不確実性を考慮しにくい決定論的モデリングパラダイムを利用する先行研究とは対照的に,我々は上記の課題に対処するために,確率的点雲デノナイズ拡散モデルを用いている。そこで本研究では, モノクロハンドヘルドオブジェクト再構成(hacd)のためのハンドアウェア条件拡散(hand-aware conditional diffusion)を提案し, ハンドオブジェクト間相互作用を2つの側面からモデル化する。まず,意味的視点と幾何学的視点の両方から手・物体間相互作用をモデル化する。具体的には、統合された手オブジェクト意味埋め込みは、手閉塞によって引き起こされる2次元局所特徴障害を補うものであり、さらに手関節埋め込みは、対象の頂点と手関節の関係を符号化する。第2に,手の頂点を前もって使用し,拡散・反転過程における部分分断点雲の遠心偏差を制限する手拘束型遠心固定スキームを提案する。遠心バイアスの干渉を取り除くことにより、拡散モデルは形状の再構成に集中することができ、局所的特徴投影の安定性と精度が向上する。 ObManデータセットと2つの実世界のデータセット、HO3DとMOWの実験は、我々のアプローチが既存のすべてのメソッドを大きなマージンで上回っていることを実証している。

関連論文リスト

Occlusion-Aware 3D Hand-Object Pose Estimation with Masked AutoEncoders [29.274913619777088]
本稿では,HOMAEと呼ばれるマスク付きオートエンコーダを用いたオクルージョンを意識したポーズ推定手法を提案する。我々は,デコーダから抽出したマルチスケール特徴を統合し,符号付き距離場(SDF)を予測する。 DexYCBとHO3Dv2ベンチマークに挑戦する実験は、HOMAEが手動ポーズ推定において最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-06-12T15:30:47Z)
MEgoHand: Multimodal Egocentric Hand-Object Interaction Motion Generation [28.75149480374178]
MEgoHandは、エゴセントリックなRGB、テキスト、初期手ポーズから物理的にプラウジブルなハンドオブジェクトインタラクションを合成するフレームワークである。手首の翻訳誤差と関節回転誤差の大幅な低減を実現し、手首の微細な関節構造を正確にモデル化する能力を強調している。
論文参考訳（メタデータ） (2025-05-22T12:37:47Z)
HORT: Monocular Hand-held Objects Reconstruction with Transformers [61.36376511119355]
モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
論文参考訳（メタデータ） (2025-03-27T09:45:09Z)
Aligning Foundation Model Priors and Diffusion-Based Hand Interactions for Occlusion-Resistant Two-Hand Reconstruction [50.952228546326516]
単眼画像からの両手再建は、複雑でダイナミックな手の位置や閉塞が原因で、永続的な課題に直面している。既存のアプローチはそのようなアライメントの問題に悩まされ、しばしば不整合と侵入の成果物をもたらす。本研究では,基礎モデルに基づく2次元先行モデルと拡散に基づく相互作用改善を組み込むことにより,手振りとインタラクションを正確に整合させる新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-03-22T14:42:27Z)
Generalizable Single-view Object Pose Estimation by Two-side Generating and Matching [19.730504197461144]
本稿では,RGB画像のみを用いてオブジェクトのポーズを決定するために,新しい一般化可能なオブジェクトポーズ推定手法を提案する。本手法は,オブジェクトの参照画像1枚で操作し,3次元オブジェクトモデルやオブジェクトの複数ビューの必要性を解消する。
論文参考訳（メタデータ） (2024-11-24T14:31:50Z)
Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文参考訳（メタデータ） (2024-03-21T10:38:18Z)
Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文参考訳（メタデータ） (2023-12-18T06:30:39Z)
StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文参考訳（メタデータ） (2023-12-02T02:27:58Z)
Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文参考訳（メタデータ） (2023-09-28T17:59:51Z)
Reference-Free Isotropic 3D EM Reconstruction using Diffusion Models [8.590026259176806]
本稿では、参照データや劣化過程に関する事前知識の制限を克服する拡散モデルに基づくフレームワークを提案する。提案手法では, 2次元拡散モデルを用いて連続的に3次元ボリュームを再構成し, 高精度なサンプルデータに適している。
論文参考訳（メタデータ） (2023-08-03T07:57:02Z)
A Probabilistic Attention Model with Occlusion-aware Texture Regression for 3D Hand Reconstruction from a Single RGB Image [5.725477071353354]
深層学習のアプローチは、1枚のRGB画像から3Dの手の再構築に有望な結果を示している。本稿では,モデルに基づくアプローチの堅牢性を実現するための新しい確率モデルを提案する。本稿では,教師付きシナリオと弱教師付きシナリオの両方において,提案する確率モデルの柔軟性を実証する。
論文参考訳（メタデータ） (2023-04-27T16:02:32Z)
Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models [33.343489006271255]
拡散モデルは、高品質なサンプルを持つ新しい最先端の生成モデルとして登場した。そこで本研究では, モデルに基づく2次元拡散を, 全次元にわたるコヒーレントな再構成を達成できるように, 実験時の残りの方向で先行する2次元拡散を拡大することを提案する。提案手法は,1つのコモディティGPU上で動作可能であり,新しい最先端技術を確立する。
論文参考訳（メタデータ） (2022-11-19T10:32:21Z)
PaMIR: Parametric Model-Conditioned Implicit Representation for Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文参考訳（メタデータ） (2020-07-08T02:26:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。