論文の概要: D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction
- arxiv url: http://arxiv.org/abs/2311.14189v3
- Date: Fri, 22 Mar 2024 08:45:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 22:30:18.448982
- Title: D-SCo: Dual-Stream Conditional Diffusion for Monocular Hand-Held Object Reconstruction
- Title(参考訳): D-SCo:単分子ハンドヘルド物体再構成のためのデュアルストリーム条件拡散
- Authors: Bowen Fu, Gu Wang, Chenyangguang Zhang, Yan Di, Ziqin Huang, Zhiying Leng, Fabian Manhardt, Xiangyang Ji, Federico Tombari,
- Abstract要約: モノクローナルハンドヘルドオブジェクト再構成のためのCentroid-fixed dual-stream conditionalfusionを導入する。
まず、対象のセントロイドがずれることを避けるために、手動制約付きセントロイド固定パラダイムを用いる。
第2に、意味的および幾何学的に手動物体の相互作用をモデル化するための二重ストリームデノイザを導入する。
- 参考スコア(独自算出の注目度): 74.49121940466675
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reconstructing hand-held objects from a single RGB image is a challenging task in computer vision. In contrast to prior works that utilize deterministic modeling paradigms, we employ a point cloud denoising diffusion model to account for the probabilistic nature of this problem. In the core, we introduce centroid-fixed dual-stream conditional diffusion for monocular hand-held object reconstruction (D-SCo), tackling two predominant challenges. First, to avoid the object centroid from deviating, we utilize a novel hand-constrained centroid fixing paradigm, enhancing the stability of diffusion and reverse processes and the precision of feature projection. Second, we introduce a dual-stream denoiser to semantically and geometrically model hand-object interactions with a novel unified hand-object semantic embedding, enhancing the reconstruction performance of the hand-occluded region of the object. Experiments on the synthetic ObMan dataset and three real-world datasets HO3D, MOW and DexYCB demonstrate that our approach can surpass all other state-of-the-art methods. Codes will be released.
- Abstract(参考訳): 単一のRGB画像からハンドヘルドオブジェクトを再構築することは、コンピュータビジョンにおいて難しい課題である。
決定論的モデリングのパラダイムを利用する先行研究とは対照的に、この問題の確率論的性質を考慮に入れた点雲デノナイズ拡散モデルを用いる。
中核部では,単眼ハンドヘルドオブジェクト再構成(D-SCo)のための遠心固定型二重ストリーム条件拡散を導入し,二つの課題に対処した。
まず,物体の遠方偏差を回避するため,手拘束型遠方偏差固定パラダイムを用い,拡散・逆過程の安定性と特徴投影の精度を向上させる。
第2に,新しい手オブジェクトセマンティック埋め込みによる手オブジェクトのセマンティックな相互作用を意味的かつ幾何学的にモデル化し,手対象領域の再構築性能を向上させるために,デュアルストリームデノイザを導入する。
ObManデータセットと、HO3D、MOW、DexYCBの3つの実世界のデータセットの実験は、我々のアプローチが他の最先端の手法を全て超えることを示した。
コードはリリースされる。
関連論文リスト
- Towards Detailed Text-to-Motion Synthesis via Basic-to-Advanced
Hierarchical Diffusion Model [60.27825196999742]
本稿では,B2A-HDMと呼ばれる新しい階層型拡散モデルを提案する。
特に、低次元ラテント空間における基本拡散モデルは、テキスト記述と整合した中間偏微分結果を与える。
高次元ラテント空間における高度な拡散モデルは、以下の詳細エンハンス・デノナイジング過程に焦点をあてる。
論文 参考訳(メタデータ) (2023-12-18T06:30:39Z) - StableDreamer: Taming Noisy Score Distillation Sampling for Text-to-3D [88.66678730537777]
本稿では3つの進歩を取り入れた方法論であるStableDreamerを紹介する。
まず、SDS生成前の等価性と、簡単な教師付きL2再構成損失を定式化する。
第2に,画像空間拡散は幾何学的精度に寄与するが,色調の鮮明化には潜時空間拡散が不可欠であることを示す。
論文 参考訳(メタデータ) (2023-12-02T02:27:58Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Reference-Free Isotropic 3D EM Reconstruction using Diffusion Models [8.590026259176806]
本稿では、参照データや劣化過程に関する事前知識の制限を克服する拡散モデルに基づくフレームワークを提案する。
提案手法では, 2次元拡散モデルを用いて連続的に3次元ボリュームを再構成し, 高精度なサンプルデータに適している。
論文 参考訳(メタデータ) (2023-08-03T07:57:02Z) - Multi-view 3D Object Reconstruction and Uncertainty Modelling with
Neural Shape Prior [9.716201630968433]
セマンティックシーン理解には3次元オブジェクト再構成が重要である。
奥行き情報,閉塞音,ノイズの欠如により,単眼画像から詳細な3次元形状を復元することは困難である。
本研究では,3次元オブジェクトモデルの大規模データセットから物体形状分布を学習し,潜在空間にマッピングするニューラルオブジェクト表現を活用することで,この問題に対処する。
本稿では,その表現の一部として不確実性をモデル化し,個々の入力画像から直接不確実性コードを生成する不確実性認識エンコーダを定義する手法を提案する。
論文 参考訳(メタデータ) (2023-06-17T03:25:13Z) - A Probabilistic Attention Model with Occlusion-aware Texture Regression
for 3D Hand Reconstruction from a Single RGB Image [5.725477071353354]
深層学習のアプローチは、1枚のRGB画像から3Dの手の再構築に有望な結果を示している。
本稿では,モデルに基づくアプローチの堅牢性を実現するための新しい確率モデルを提案する。
本稿では,教師付きシナリオと弱教師付きシナリオの両方において,提案する確率モデルの柔軟性を実証する。
論文 参考訳(メタデータ) (2023-04-27T16:02:32Z) - Solving 3D Inverse Problems using Pre-trained 2D Diffusion Models [33.343489006271255]
拡散モデルは、高品質なサンプルを持つ新しい最先端の生成モデルとして登場した。
そこで本研究では, モデルに基づく2次元拡散を, 全次元にわたるコヒーレントな再構成を達成できるように, 実験時の残りの方向で先行する2次元拡散を拡大することを提案する。
提案手法は,1つのコモディティGPU上で動作可能であり,新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-11-19T10:32:21Z) - Secrets of 3D Implicit Object Shape Reconstruction in the Wild [92.5554695397653]
コンピュータビジョン、ロボティクス、グラフィックスの様々な用途において、高精細な3Dオブジェクトをスパースから再構築することは重要です。
最近の神経暗黙的モデリング法は、合成データセットまたは高密度データセットで有望な結果を示す。
しかし、粗末でノイズの多い実世界のデータではパフォーマンスが悪い。
本論文では, 一般的な神経暗黙モデルの性能低下の根本原因を解析する。
論文 参考訳(メタデータ) (2021-01-18T03:24:48Z) - PaMIR: Parametric Model-Conditioned Implicit Representation for
Image-based Human Reconstruction [67.08350202974434]
本研究では,パラメトリックボディモデルと自由形深部暗黙関数を組み合わせたパラメトリックモデル記述型暗黙表現(PaMIR)を提案する。
本手法は, 挑戦的なポーズや衣料品のタイプにおいて, 画像に基づく3次元再構築のための最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-08T02:26:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。