論文の概要: SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image
- arxiv url: http://arxiv.org/abs/2409.16178v2
- Date: Mon, 10 Mar 2025 14:43:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 18:53:58.773592
- Title: SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image
- Title(参考訳): SDFit:形態可能なSDFを1枚の画像に合わせることで3Dオブジェクトの空間と形状を計測する
- Authors: Dimitrije Antić, Georgios Paschalidis, Shashank Tripathi, Theo Gevers, Sai Kumar Dwivedi, Dimitrios Tzionas,
- Abstract要約: SDFitは、単一の画像から3Dオブジェクトのポーズと形状を復元するための最適化フレームワークである。
画像特徴量とmSDFのリッチな2D-3D対応を確立するために基礎モデルを用いており、第3に、形状とポーズを反復的に洗練するフィッティングパイプラインを開発している。
- 参考スコア(独自算出の注目度): 18.595767346300995
- License:
- Abstract: Recovering 3D object pose and shape from a single image is a challenging and highly ill-posed problem. This is due to strong (self-)occlusions, depth ambiguities, the vast intra- and inter-class shape variance, and lack of 3D ground truth for natural images. While existing methods train deep networks on synthetic datasets to predict 3D shapes, they often struggle to generalize to real-world scenarios, lack an explicit feedback loop for refining noisy estimates, and primarily focus on geometry without explicitly considering pixel alignment. To this end, we make two key observations: (1) a robust solution requires a model that imposes a strong category-specific shape prior to constrain the search space, and (2) foundational models embed 2D images and 3D shapes in joint spaces; both help resolve ambiguities. Hence, we propose SDFit, a novel optimization framework that is built on three key innovations: First, we use a learned morphable signed-distance-function (mSDF) model that acts as a strong shape prior, thus constraining the shape space. Second, we use foundational models to establish rich 2D-to-3D correspondences between image features and the mSDF. Third, we develop a fitting pipeline that iteratively refines both shape and pose, aligning the mSDF to the image. We evaluate SDFit on the Pix3D, Pascal3D+, and COMIC image datasets. SDFit performs on par with SotA methods, while demonstrating exceptional robustness to occlusions and requiring no retraining for unseen images. Therefore, SDFit contributes new insights for generalizing in the wild, paving the way for future research. Code will be released.
- Abstract(参考訳): 1枚の画像から3Dオブジェクトのポーズと形状を復元することは、困難で非常に不適切な問題である。
これは、強い(自己の)隠蔽、深さの曖昧さ、巨大なクラス内およびクラス間形状のばらつき、そして自然画像に対する3D基底真理の欠如によるものである。
既存の手法では、合成データセット上のディープネットワークをトレーニングして3D形状を予測するが、現実のシナリオへの一般化に苦慮することが多く、ノイズの多い推定を精査するための明確なフィードバックループが欠如しており、主にピクセルアライメントを明示的に考慮せずに幾何学に焦点を当てている。
この目的のために, 頑健な解には, 探索空間を制約する前に, 強いカテゴリ固有の形状を課すモデルが必要であり, 2次元画像と3次元形状を結合空間に埋め込んだ基礎モデルが必要であり, 両者があいまいを解消するのに役立つ。
そこで我々は,SDFitを提案する。SDFitは3つの重要なイノベーションに基づいて構築された新しい最適化フレームワークである。まず,学習されたモルファスな符号-距離関数(mSDF)モデルを用いて,前もって強力な形状として機能し,形状空間を制約する。
第2に、画像特徴とmSDFとの間のリッチな2次元から3次元対応を確立するために基礎モデルを用いる。
第3に、画像にmSDFをアライメントして、形状とポーズを反復的に洗練するフィッティングパイプラインを開発する。
Pix3D, Pascal3D+, COMIC画像データセット上でSDFitを評価する。
SDFit は SotA メソッドと同等に動作し、排他的ロバスト性を示し、目に見えない画像の再トレーニングを必要としない。
そのため、SDFitは自然界の一般化に新たな洞察をもたらし、将来の研究への道を開いた。
コードはリリースされる。
関連論文リスト
- HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed
Distance Fields [96.04424738803667]
HOISDFは手動ポーズ推定ネットワークである。
手とオブジェクトのSDFを利用して、完全な再構築ボリュームに対してグローバルで暗黙的な表現を提供する。
そこで, HOISDFは手動ポーズ推定ベンチマークにおいて, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-26T22:48:37Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - DDF-HO: Hand-Held Object Reconstruction via Conditional Directed
Distance Field [82.81337273685176]
DDF-HOは、DDF(Directed Distance Field)を形状表現として活用する新しいアプローチである。
我々はランダムに複数の光線をサンプリングし、新しい2D線に基づく特徴集約方式を導入することにより、局所的・大域的特徴を収集する。
合成および実世界のデータセットの実験は、DFF-HOが全てのベースライン手法を大きなマージンで一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-08-16T09:06:32Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - SDF-3DGAN: A 3D Object Generative Method Based on Implicit Signed
Distance Function [10.199463450025391]
我々は3次元オブジェクト生成と3次元認識画像タスクのための新しい手法 SDF-3DGAN を開発した。
宇宙空間における3次元物体の高画質表現にSDFを適用し,高効率かつ高精度な新しいSDFニューラルを設計する。
論文 参考訳(メタデータ) (2023-03-13T02:48:54Z) - RAFaRe: Learning Robust and Accurate Non-parametric 3D Face
Reconstruction from Pseudo 2D&3D Pairs [13.11105614044699]
単視3次元顔再構成(SVFR)のための頑健で正確な非パラメトリック手法を提案する。
大規模な擬似2D&3Dデータセットは、まず詳細な3D顔をレンダリングし、野生の画像の顔と描画された顔とを交換することによって作成される。
本モデルは,FaceScape-wild/labおよびMICCベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-10T19:40:26Z) - Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。
本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文 参考訳(メタデータ) (2022-12-06T19:46:47Z) - NeuralODF: Learning Omnidirectional Distance Fields for 3D Shape
Representation [7.208066405543874]
ビジュアルコンピューティングでは、3D幾何はメッシュ、点雲、ボクセルグリッド、レベルセット、深度画像など様々な形で表現される。
オムニ距離場(Omni Distance Fields, ODFs)は, 物体表面の深度を任意の3次元位置から任意の視方向から保存することにより, 形状を符号化する新しい3次元形状表現である。
論文 参考訳(メタデータ) (2022-06-12T20:59:26Z) - FIRe: Fast Inverse Rendering using Directional and Signed Distance
Functions [97.5540646069663]
指向性距離関数(DDF)と呼ばれる新しいニューラルシーン表現を導入する。
DDFは単位球上で定義され、任意の方向に沿って表面までの距離を予測する。
提案手法はDDFに基づいて,提案した深度マップから3次元形状を再構成する高速アルゴリズム (FIRe) を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:24:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。