論文の概要: MVDD: Multi-View Depth Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.04875v1
- Date: Fri, 8 Dec 2023 07:16:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 15:45:22.136607
- Title: MVDD: Multi-View Depth Diffusion Models
- Title(参考訳): MVDD:多視点深度拡散モデル
- Authors: Zhen Wang, Qiangeng Xu, Feitong Tan, Menglei Chai, Shichen Liu, Rohit
Pandey, Sean Fanello, Achuta Kadambi, Yinda Zhang
- Abstract要約: 本稿では,複雑な3次元形状を2次元データ形式で表現する多視点深度モデルを提案する。
この表現を、高品質な高密度点雲を生成することができる拡散モデルMVDDと組み合わせる。
MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。
- 参考スコア(独自算出の注目度): 34.60436841755035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Denoising diffusion models have demonstrated outstanding results in 2D image
generation, yet it remains a challenge to replicate its success in 3D shape
generation. In this paper, we propose leveraging multi-view depth, which
represents complex 3D shapes in a 2D data format that is easy to denoise. We
pair this representation with a diffusion model, MVDD, that is capable of
generating high-quality dense point clouds with 20K+ points with fine-grained
details. To enforce 3D consistency in multi-view depth, we introduce an
epipolar line segment attention that conditions the denoising step for a view
on its neighboring views. Additionally, a depth fusion module is incorporated
into diffusion steps to further ensure the alignment of depth maps. When
augmented with surface reconstruction, MVDD can also produce high-quality 3D
meshes. Furthermore, MVDD stands out in other tasks such as depth completion,
and can serve as a 3D prior, significantly boosting many downstream tasks, such
as GAN inversion. State-of-the-art results from extensive experiments
demonstrate MVDD's excellent ability in 3D shape generation, depth completion,
and its potential as a 3D prior for downstream tasks.
- Abstract(参考訳): 拡散モデルは2次元画像生成において顕著な結果を示したが、3次元形状生成の成功を再現することは依然として困難である。
本稿では,複雑な3次元形状を表現するマルチビュー奥行きを利用した2次元データ形式を提案する。
この表現を拡散モデルMVDDと組み合わせ、20K以上の点と細かな詳細を持つ高品質の高密度点雲を生成することができる。
多視点深度で3次元の整合性を実現するために, 隣接する視点の視界に対して, 偏極線セグメントの注意を規定する。
さらに、深度マップのアライメントをより確実にするために、深度融合モジュールを拡散ステップに組み込む。
表面再構成で拡張すると、MVDDは高品質な3Dメッシュを生成することができる。
さらに、MVDDは深度補完のような他のタスクで際立っているため、3D先行として機能し、GANインバージョンのような下流タスクを著しく増加させる。
MVDDの3次元形状生成, 深度完了, 下流作業における3次元前処理の可能性について検討した。
関連論文リスト
- MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。
提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:59:57Z) - Tri-Perspective View Decomposition for Geometry-Aware Depth Completion [24.98850285904668]
Tri-Perspective View Decomposition (TPVD)は、3D幾何学を明示的にモデル化できる新しいフレームワークである。
TPVDは元の点雲を3つの2Dビューに分解する。
TPVDは、KITTI、NYUv2、SUN RGBDの既存の手法より優れている。
論文 参考訳(メタデータ) (2024-03-22T07:45:50Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Pyramid Diffusion for Fine 3D Large Scene Generation [56.00726092690535]
拡散モデルは2次元画像と小型3次元オブジェクトの生成において顕著な結果を示した。
大規模な3Dシーンの合成への応用はめったに研究されていない。
本稿では,大規模拡散モデルを用いて,高品質な屋外シーンを段階的に生成するフレームワークであるPraamid Discrete Diffusion Model (PDD)を紹介する。
論文 参考訳(メタデータ) (2023-11-20T11:24:21Z) - TetraDiffusion: Tetrahedral Diffusion Models for 3D Shape Generation [19.976938789105393]
テトラ拡散(TetraDiffusion)は、3次元空間の四面体分割で動作する拡散モデルであり、効率的で高分解能な3次元形状生成を可能にする。
注目すべきは、TetraDiffusionは前例のない解像度で、ほぼリアルタイムで詳細な3Dオブジェクトの迅速なサンプリングを可能にすることだ。
論文 参考訳(メタデータ) (2022-11-23T18:58:33Z) - Deep Generative Models on 3D Representations: A Survey [81.73385191402419]
生成モデルは、新しいインスタンスを生成することによって観測データの分布を学習することを目的としている。
最近、研究者は焦点を2Dから3Dにシフトし始めた。
3Dデータの表現は、非常に大きな課題をもたらします。
論文 参考訳(メタデータ) (2022-10-27T17:59:50Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - 3D-to-2D Distillation for Indoor Scene Parsing [78.36781565047656]
大規模3次元データリポジトリから抽出した3次元特徴を有効活用し,RGB画像から抽出した2次元特徴を向上する手法を提案する。
まず,事前学習した3Dネットワークから3D知識を抽出して2Dネットワークを監督し,トレーニング中の2D特徴からシミュレーションされた3D特徴を学習する。
次に,2次元の正規化方式を設計し,2次元特徴と3次元特徴のキャリブレーションを行った。
第3に,非ペアの3dデータを用いたトレーニングのフレームワークを拡張するために,意味を意識した対向的トレーニングモデルを設計した。
論文 参考訳(メタデータ) (2021-04-06T02:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。