論文の概要: SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image
- arxiv url: http://arxiv.org/abs/2409.16178v3
- Date: Thu, 31 Jul 2025 15:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 15:10:44.553043
- Title: SDFit: 3D Object Pose and Shape by Fitting a Morphable SDF to a Single Image
- Title(参考訳): SDFit:形態可能なSDFを1枚の画像に合わせることで3Dオブジェクトの空間と形状を計測する
- Authors: Dimitrije Antić, Georgios Paschalidis, Shashank Tripathi, Theo Gevers, Sai Kumar Dwivedi, Dimitrios Tzionas,
- Abstract要約: SDFitと呼ばれる新しいレンダリング・アンド・コンパレート最適化フレームワークを開発した。
学習したカテゴリ固有かつ変形可能な符号距離関数(mSDF)モデルを使用し、これを3Dポーズと形状の両方を反復的に精製することによって画像に適合させる。
画像にマッチする最初の3D形状を検索し、基礎モデルを利用して3D形状データベースを効率的に検索する。
- 参考スコア(独自算出の注目度): 18.595767346300995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recovering 3D object pose and shape from a single image is a challenging and ill-posed problem. This is due to strong (self-)occlusions, depth ambiguities, the vast intra- and inter-class shape variance, and the lack of 3D ground truth for natural images. Existing deep-network methods are trained on synthetic datasets to predict 3D shapes, so they often struggle generalizing to real-world images. Moreover, they lack an explicit feedback loop for refining noisy estimates, and primarily focus on geometry without directly considering pixel alignment. To tackle these limitations, we develop a novel render-and-compare optimization framework, called SDFit. This has three key innovations: First, it uses a learned category-specific and morphable signed-distance-function (mSDF) model, and fits this to an image by iteratively refining both 3D pose and shape. The mSDF robustifies inference by constraining the search on the manifold of valid shapes, while allowing for arbitrary shape topologies. Second, SDFit retrieves an initial 3D shape that likely matches the image, by exploiting foundational models for efficient look-up into 3D shape databases. Third, SDFit initializes pose by establishing rich 2D-3D correspondences between the image and the mSDF through foundational features. We evaluate SDFit on three image datasets, i.e., Pix3D, Pascal3D+, and COMIC. SDFit performs on par with SotA feed-forward networks for unoccluded images and common poses, but is uniquely robust to occlusions and uncommon poses. Moreover, it requires no retraining for unseen images. Thus, SDFit contributes new insights for generalizing in the wild. Code is available at https://anticdimi.github.io/sdfit.
- Abstract(参考訳): 1枚の画像から3Dオブジェクトのポーズと形状を復元することは、困難で不適切な問題である。
これは、強い(自己の)隠蔽、深さの曖昧さ、巨大なクラス内およびクラス間形状のばらつき、そして自然画像に対する3D基底真理の欠如によるものである。
既存のディープネットワーク手法は3次元形状を予測するために合成データセットで訓練されているため、実世界の画像への一般化に苦慮することが多い。
さらに、ノイズ推定を精査するための明示的なフィードバックループがなく、主に画素アライメントを直接考慮せずに幾何学に焦点を当てている。
これらの制約に対処するため、SDFitと呼ばれる新しいレンダリング・アンド・コンパレート最適化フレームワークを開発した。
まず、学習したカテゴリ特化かつ変形可能な符号距離関数(mSDF)モデルを使用し、3Dポーズと形状の両方を反復的に修正することで、これを画像に適合させる。
mSDFは、任意の形状トポロジーを許容しながら、有効な形状の多様体の探索を制限して推論を堅牢化する。
次に、SDFitは3D形状データベースへの効率的なルックアップのために基礎モデルを活用することで、画像にマッチする可能性のある最初の3D形状を検索する。
第3に、SDFitは、基本的な特徴を通して画像とmSDFの間のリッチな2D-3D対応を確立することで、ポーズを初期化する。
SDFitをPix3D, Pascal3D+, COMICの3つの画像データセットで評価した。
SDFitは、隠されていない画像や一般的なポーズのためのSotAフィードフォワードネットワークと同等に動作するが、排他的ポーズや珍しいポーズに対してユニークに堅牢である。
さらに、目に見えない画像の再トレーニングは不要である。
したがって、SDFitは、野生での一般化のための新しい洞察に貢献する。
コードはhttps://anticdimi.github.io/sdfit.comで入手できる。
関連論文リスト
- HOISDF: Constraining 3D Hand-Object Pose Estimation with Global Signed
Distance Fields [96.04424738803667]
HOISDFは手動ポーズ推定ネットワークである。
手とオブジェクトのSDFを利用して、完全な再構築ボリュームに対してグローバルで暗黙的な表現を提供する。
そこで, HOISDFは手動ポーズ推定ベンチマークにおいて, 最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2024-02-26T22:48:37Z) - WildFusion: Learning 3D-Aware Latent Diffusion Models in View Space [77.92350895927922]
潜在拡散モデル(LDM)に基づく3次元画像合成の新しいアプローチであるWildFusionを提案する。
我々の3D対応LCMは、マルチビュー画像や3D幾何学を直接監督することなく訓練されている。
これにより、スケーラブルな3D認識画像合成と、Wild画像データから3Dコンテンツを作成するための有望な研究道が開かれる。
論文 参考訳(メタデータ) (2023-11-22T18:25:51Z) - DDF-HO: Hand-Held Object Reconstruction via Conditional Directed
Distance Field [82.81337273685176]
DDF-HOは、DDF(Directed Distance Field)を形状表現として活用する新しいアプローチである。
我々はランダムに複数の光線をサンプリングし、新しい2D線に基づく特徴集約方式を導入することにより、局所的・大域的特徴を収集する。
合成および実世界のデータセットの実験は、DFF-HOが全てのベースライン手法を大きなマージンで一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-08-16T09:06:32Z) - Michelangelo: Conditional 3D Shape Generation based on Shape-Image-Text
Aligned Latent Representation [47.945556996219295]
本稿では2次元画像やテキストに基づいて3次元形状を生成する新しいアライメント前世代手法を提案する。
我々のフレームワークは、形状-画像-テキスト対応変分自動エンコーダ(SITA-VAE)と条件付き形状遅延拡散モデル(ASLDM)の2つのモデルで構成されている。
論文 参考訳(メタデータ) (2023-06-29T17:17:57Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - Locally Attentional SDF Diffusion for Controllable 3D Shape Generation [24.83724829092307]
本研究では,2次元スケッチ画像入力を用いて3次元形状をモデル化する拡散型3次元生成フレームワークを提案する。
本手法は, 2段階拡散モデルを用いて構築され, その第1段階である占有拡散は, 低分解能占有場を生成し, 形状シェルを近似することを目的としている。
SDF拡散と呼ばれる第2段階は、第1段階によって決定された占有ボクセル内の高分解能符号距離場を合成し、微細な幾何を抽出する。
論文 参考訳(メタデータ) (2023-05-08T05:07:23Z) - SDF-3DGAN: A 3D Object Generative Method Based on Implicit Signed
Distance Function [10.199463450025391]
我々は3次元オブジェクト生成と3次元認識画像タスクのための新しい手法 SDF-3DGAN を開発した。
宇宙空間における3次元物体の高画質表現にSDFを適用し,高効率かつ高精度な新しいSDFニューラルを設計する。
論文 参考訳(メタデータ) (2023-03-13T02:48:54Z) - 3D Surface Reconstruction in the Wild by Deforming Shape Priors from
Synthetic Data [24.97027425606138]
1枚の画像から被写体の3次元表面を再構築することは難しい問題である。
本稿では,1枚の画像から3次元合成とオブジェクトポーズ推定を行う新しい手法を提案する。
提案手法は,複数の実世界のデータセットにまたがって,最先端の再構築性能を実現する。
論文 参考訳(メタデータ) (2023-02-24T20:37:27Z) - RAFaRe: Learning Robust and Accurate Non-parametric 3D Face
Reconstruction from Pseudo 2D&3D Pairs [13.11105614044699]
単視3次元顔再構成(SVFR)のための頑健で正確な非パラメトリック手法を提案する。
大規模な擬似2D&3Dデータセットは、まず詳細な3D顔をレンダリングし、野生の画像の顔と描画された顔とを交換することによって作成される。
本モデルは,FaceScape-wild/labおよびMICCベンチマークにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-10T19:40:26Z) - Diffusion-SDF: Text-to-Shape via Voxelized Diffusion [90.85011923436593]
本研究では,テキスト・ツー・シェイプ合成の課題に対して,Diffusion-SDFと呼ばれる新しい3次元モデリングフレームワークを提案する。
本研究では,Diffusion-SDFが与えられたテキスト記述によく適合する高品質な3次元形状と,より多様化した3次元形状の両方を生成することを示す。
論文 参考訳(メタデータ) (2022-12-06T19:46:47Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z) - NeuralODF: Learning Omnidirectional Distance Fields for 3D Shape
Representation [7.208066405543874]
ビジュアルコンピューティングでは、3D幾何はメッシュ、点雲、ボクセルグリッド、レベルセット、深度画像など様々な形で表現される。
オムニ距離場(Omni Distance Fields, ODFs)は, 物体表面の深度を任意の3次元位置から任意の視方向から保存することにより, 形状を符号化する新しい3次元形状表現である。
論文 参考訳(メタデータ) (2022-06-12T20:59:26Z) - 3D Magic Mirror: Clothing Reconstruction from a Single Image via a
Causal Perspective [96.65476492200648]
本研究は, 自己監督型3D衣料の再構築手法について検討することを目的とする。
1枚の2D画像から人間の衣服の形状やテクスチャを復元する。
論文 参考訳(メタデータ) (2022-04-27T17:46:55Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - FIRe: Fast Inverse Rendering using Directional and Signed Distance
Functions [97.5540646069663]
指向性距離関数(DDF)と呼ばれる新しいニューラルシーン表現を導入する。
DDFは単位球上で定義され、任意の方向に沿って表面までの距離を予測する。
提案手法はDDFに基づいて,提案した深度マップから3次元形状を再構成する高速アルゴリズム (FIRe) を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:24:04Z) - 3D Shape Reconstruction from 2D Images with Disentangled Attribute Flow [61.62796058294777]
単一の2D画像から3D形状を再構築することは難しい作業だ。
従来の手法の多くは3次元再構成作業における意味的属性の抽出に苦慮している。
本稿では,3DAttriFlowを用いて,入力画像の異なる意味レベルから意味的属性を抽出する手法を提案する。
論文 参考訳(メタデータ) (2022-03-29T02:03:31Z) - Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D
Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。
我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。
論文 参考訳(メタデータ) (2021-01-26T18:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。