論文の概要: Repurposing 2D Diffusion Models for 3D Shape Completion
- arxiv url: http://arxiv.org/abs/2512.13991v1
- Date: Tue, 16 Dec 2025 00:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-17 16:49:26.53505
- Title: Repurposing 2D Diffusion Models for 3D Shape Completion
- Title(参考訳): 3次元形状完備化のための2次元拡散モデルの再検討
- Authors: Yao He, Youngjoong Kwon, Tiange Xiang, Wenxiao Cai, Ehsan Adeli,
- Abstract要約: 不完全点雲からの3次元形状完備化に2次元拡散モデルを適用する枠組みを提案する。
本稿では3次元幾何学のコンパクトな2次元表現であるShape Atlasを紹介する。
我々は,PCNおよびShapeNet-55データセットにおける結果の有効性を検証した。
- 参考スコア(独自算出の注目度): 14.959136858291904
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a framework that adapts 2D diffusion models for 3D shape completion from incomplete point clouds. While text-to-image diffusion models have achieved remarkable success with abundant 2D data, 3D diffusion models lag due to the scarcity of high-quality 3D datasets and a persistent modality gap between 3D inputs and 2D latent spaces. To overcome these limitations, we introduce the Shape Atlas, a compact 2D representation of 3D geometry that (1) enables full utilization of the generative power of pretrained 2D diffusion models, and (2) aligns the modalities between the conditional input and output spaces, allowing more effective conditioning. This unified 2D formulation facilitates learning from limited 3D data and produces high-quality, detail-preserving shape completions. We validate the effectiveness of our results on the PCN and ShapeNet-55 datasets. Additionally, we show the downstream application of creating artist-created meshes from our completed point clouds, further demonstrating the practicality of our method.
- Abstract(参考訳): 不完全点雲からの3次元形状完備化に2次元拡散モデルを適用する枠組みを提案する。
テキストと画像の拡散モデルは、豊富な2Dデータで顕著に成功しているが、高品質な3Dデータセットの不足と、3D入力と2D潜在空間の間の永続的なモダリティギャップによる3D拡散モデルは遅れている。
これらの制約を克服するために,(1)事前学習した2次元拡散モデルの生成パワーをフル活用可能な3次元幾何学のコンパクトな2次元表現であるShape Atlasを導入し,(2)条件入力と出力空間のモダリティを整合させて,より効率的な条件付けを可能にする。
この統合された2次元定式化は、限られた3次元データからの学習を容易にし、高品質で詳細な形状の完成物を生成する。
我々は,PCNおよびShapeNet-55データセットにおける結果の有効性を検証した。
さらに、完成したポイントクラウドからアーティストが作ったメッシュを作成するための下流のアプリケーションを示し、さらに本手法の実用性を示す。
関連論文リスト
- DINO in the Room: Leveraging 2D Foundation Models for 3D Segmentation [51.43837087865105]
大規模な画像データセットに基づいてトレーニングされた視覚基礎モデル(VFM)は、非常に高度な2D視覚認識を備えた高品質な機能を提供する。
3D画像と3Dポイントクラウドデータセットの共通利用にもかかわらず、彼らの3Dビジョンのポテンシャルは依然としてほとんど未解決のままである。
2Dファンデーションモデルの特徴を抽出し,それを3Dに投影し,最終的に3Dポイントクラウドセグメンテーションモデルに注入する,シンプルで効果的なアプローチであるDITRを導入する。
論文 参考訳(メタデータ) (2025-03-24T17:59:11Z) - Repurposing 2D Diffusion Models with Gaussian Atlas for 3D Generation [30.418733980714915]
本研究では,高密度な2次元格子を用いた新しい表現を導入し,2次元拡散モデルの微調整により3次元ガウスモデルを生成する。
実験結果から,テキスト・画像拡散モデルが3次元コンテンツ生成に効果的に適応できることが示唆された。
論文 参考訳(メタデータ) (2025-03-20T05:59:41Z) - Zero-1-to-G: Taming Pretrained 2D Diffusion Model for Direct 3D Generation [66.75243908044538]
我々は,事前学習した2次元拡散モデルを用いたガウススプラット上での3次元直接生成手法であるZero-1-to-Gを導入する。
3D認識を取り入れるために,複雑な相関関係を捉え,生成されたスプラット間の3D一貫性を強制する,クロスビュー層とクロスアトリビュートアテンション層を導入する。
これにより、Zero-1-to-Gは、事前訓練された2D拡散前処理を効果的に活用する最初の直接画像から3D生成モデルとなり、効率的なトレーニングと未確認物体への一般化が実現された。
論文 参考訳(メタデータ) (2025-01-09T18:37:35Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - SC-Diff: 3D Shape Completion with Latent Diffusion Models [4.261508855254493]
マルチモーダル条件を統一する新しい3次元形状完備化フレームワークを提案する。
形状はTrncated Signed Distance Function (TSDF) として表現され、2Dと3Dのキューで共同で制御された離散潜在空間に符号化される。
提案手法は, フレキシブルなマルチモーダルコンディショニングにより生成過程をガイドし, 2次元情報と3次元情報の一貫した統合を保証する。
論文 参考訳(メタデータ) (2024-03-19T06:01:11Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Let 2D Diffusion Model Know 3D-Consistency for Robust Text-to-3D
Generation [39.50894560861625]
3DFuseは、事前訓練された2D拡散モデルに3D認識を組み込む新しいフレームワークである。
本研究では,2次元拡散モデルを用いて,粗い3次元構造内の誤差や空間の分散を学習し,ロバストな生成を可能にするトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T14:24:31Z) - Cylinder3D: An Effective 3D Framework for Driving-scene LiDAR Semantic
Segmentation [87.54570024320354]
大規模運転シーンのLiDARセマンティックセマンティックセグメンテーションのための最先端の手法は、しばしば2D空間の点雲を投影して処理する。
3D-to-2Dプロジェクションの問題に取り組むための簡単な解決策は、3D表現を保ち、3D空間の点を処理することである。
我々は3次元シリンダー分割と3次元シリンダー畳み込みに基づくフレームワークをCylinder3Dとして開発し,3次元トポロジの関係と運転シーンの点雲の構造を利用する。
論文 参考訳(メタデータ) (2020-08-04T13:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。