論文の概要: Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors
- arxiv url: http://arxiv.org/abs/2507.12336v1
- Date: Wed, 16 Jul 2025 15:29:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.452598
- Title: Unsupervised Monocular 3D Keypoint Discovery from Multi-View Diffusion Priors
- Title(参考訳): 多視点拡散先からの教師なし単眼3次元キーポイント発見
- Authors: Subin Jeon, In Cho, Junyoung Hong, Seon Joo Kim,
- Abstract要約: KeyDiff3Dは、教師なし単眼の3Dキーポイント推定のためのフレームワークである。
我々は、事前訓練された多視点拡散モデルに埋め込まれた強力な幾何学的先行性を利用する。
拡散モデルにより生成された3次元オブジェクトの操作を可能にするパイプラインを導入する。
- 参考スコア(独自算出の注目度): 21.97308739556984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces KeyDiff3D, a framework for unsupervised monocular 3D keypoints estimation that accurately predicts 3D keypoints from a single image. While previous methods rely on manual annotations or calibrated multi-view images, both of which are expensive to collect, our method enables monocular 3D keypoints estimation using only a collection of single-view images. To achieve this, we leverage powerful geometric priors embedded in a pretrained multi-view diffusion model. In our framework, this model generates multi-view images from a single image, serving as a supervision signal to provide 3D geometric cues to our model. We also use the diffusion model as a powerful 2D multi-view feature extractor and construct 3D feature volumes from its intermediate representations. This transforms implicit 3D priors learned by the diffusion model into explicit 3D features. Beyond accurate keypoints estimation, we further introduce a pipeline that enables manipulation of 3D objects generated by the diffusion model. Experimental results on diverse aspects and datasets, including Human3.6M, Stanford Dogs, and several in-the-wild and out-of-domain datasets, highlight the effectiveness of our method in terms of accuracy, generalization, and its ability to enable manipulation of 3D objects generated by the diffusion model from a single image.
- Abstract(参考訳): 本稿では,1つの画像から3Dキーポイントを正確に予測する,教師なしモノクロ3Dキーポイント推定フレームワークであるKeyDiff3Dを紹介する。
従来の手法では手動のアノテーションや校正によるマルチビュー画像に頼っていたが,この手法では単一のビュー画像のみを用いて,モノラルな3Dキーポイント推定が可能であった。
これを実現するために、事前訓練された多視点拡散モデルに埋め込まれた強力な幾何学的先行性を利用する。
本モデルでは, 1枚の画像から多視点画像を生成し, モデルに3次元幾何学的手がかりを提供するための監視信号として機能する。
また,拡散モデルを強力な2次元多視点特徴抽出器として利用し,その中間表現から3次元特徴量を構成する。
これは拡散モデルによって学習された暗黙の3D先行を明示的な3D特徴に変換する。
正確なキーポイント推定以外にも,拡散モデルにより生成された3次元オブジェクトの操作を可能にするパイプラインも導入する。
Human3.6MやStanford Dogsなど、さまざまな側面やデータセットに関する実験結果は、精度、一般化、そして単一の画像から拡散モデルによって生成された3Dオブジェクトの操作を可能にする能力において、我々の方法の有効性を強調している。
関連論文リスト
- Sharp-It: A Multi-view to Multi-view Diffusion Model for 3D Synthesis and Manipulation [15.215597253086612]
我々は,3次元表現を直接生成する手法と,多視点画像から3次元オブジェクトを再構成する手法の質差を橋渡しする。
シャープ・イット(Sharp-It)と呼ばれるマルチビュー拡散モデルを導入する。
Sharp-Itは高速な合成、編集、制御された生成などの様々な3Dアプリケーションを可能にすると同時に、高品質な資産を達成可能であることを実証する。
論文 参考訳(メタデータ) (2024-12-03T17:58:07Z) - MVDiff: Scalable and Flexible Multi-View Diffusion for 3D Object Reconstruction from Single-View [0.0]
本稿では,単一画像から一貫した多視点画像を生成するための一般的なフレームワークを提案する。
提案モデルは,PSNR,SSIM,LPIPSなどの評価指標において,ベースライン法を超える3Dメッシュを生成することができる。
論文 参考訳(メタデータ) (2024-05-06T22:55:53Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - Sparse3D: Distilling Multiview-Consistent Diffusion for Object
Reconstruction from Sparse Views [47.215089338101066]
スパースビュー入力に適した新しい3D再構成手法であるスパース3Dを提案する。
提案手法は,多視点拡散モデルから頑健な先行情報を抽出し,ニューラルラディアンス場を改良する。
強力な画像拡散モデルから2Dプリエントをタップすることで、我々の統合モデルは、常に高品質な結果をもたらす。
論文 参考訳(メタデータ) (2023-08-27T11:52:00Z) - Control3Diff: Learning Controllable 3D Diffusion Models from Single-view
Images [70.17085345196583]
Control3Diffは拡散モデルと3D GANの強みを組み合わせた3次元拡散モデルである。
FFHQ,AFHQ,ShapeNet などの標準画像生成ベンチマークにおける Control3Diff の有効性を検証する。
論文 参考訳(メタデータ) (2023-04-13T17:52:29Z) - Pixel2Mesh++: 3D Mesh Generation and Refinement from Multi-View Images [82.32776379815712]
カメラポーズの有無にかかわらず、少数のカラー画像から3次元メッシュ表現における形状生成の問題について検討する。
我々は,グラフ畳み込みネットワークを用いたクロスビュー情報を活用することにより,形状品質をさらに向上する。
我々のモデルは初期メッシュの品質とカメラポーズの誤差に頑健であり、テスト時間最適化のための微分関数と組み合わせることができる。
論文 参考訳(メタデータ) (2022-04-21T03:42:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。