論文の概要: PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
- arxiv url: http://arxiv.org/abs/2412.18608v2
- Date: Sun, 29 Dec 2024 16:01:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-31 12:42:31.562480
- Title: PartGen: Part-level 3D Generation and Reconstruction with Multi-View Diffusion Models
- Title(参考訳): PartGen: 多視点拡散モデルによる部分レベル3次元生成と再構成
- Authors: Minghao Chen, Roman Shapovalov, Iro Laina, Tom Monnier, Jianyuan Wang, David Novotny, Andrea Vedaldi,
- Abstract要約: テキスト,画像,構造化されていない3Dオブジェクトから意味のある部分からなる3Dオブジェクトを生成する新しいアプローチであるPartGenを紹介する。
提案手法は, 生成された実物および実物の3次元資産に対して評価し, セグメンテーションおよび部分抽出ベースラインを大きなマージンで上回っていることを示す。
- 参考スコア(独自算出の注目度): 63.1432721793683
- License:
- Abstract: Text- or image-to-3D generators and 3D scanners can now produce 3D assets with high-quality shapes and textures. These assets typically consist of a single, fused representation, like an implicit neural field, a Gaussian mixture, or a mesh, without any useful structure. However, most applications and creative workflows require assets to be made of several meaningful parts that can be manipulated independently. To address this gap, we introduce PartGen, a novel approach that generates 3D objects composed of meaningful parts starting from text, an image, or an unstructured 3D object. First, given multiple views of a 3D object, generated or rendered, a multi-view diffusion model extracts a set of plausible and view-consistent part segmentations, dividing the object into parts. Then, a second multi-view diffusion model takes each part separately, fills in the occlusions, and uses those completed views for 3D reconstruction by feeding them to a 3D reconstruction network. This completion process considers the context of the entire object to ensure that the parts integrate cohesively. The generative completion model can make up for the information missing due to occlusions; in extreme cases, it can hallucinate entirely invisible parts based on the input 3D asset. We evaluate our method on generated and real 3D assets and show that it outperforms segmentation and part-extraction baselines by a large margin. We also showcase downstream applications such as 3D part editing.
- Abstract(参考訳): テキストまたは画像から3Dのジェネレータと3Dスキャナーは、高品質な形状とテクスチャを持つ3Dアセットを作成できるようになった。
これらの資産は典型的には、暗黙の神経場、ガウス混合、またはメッシュのような単一の融合した表現から成り、いかなる有用な構造も持たない。
しかし、ほとんどのアプリケーションやクリエイティブワークフローは、独立して操作できるいくつかの意味のある部分からなる資産を必要とします。
このギャップに対処するために、テキスト、画像、構造化されていない3Dオブジェクトから意味のある部分からなる3Dオブジェクトを生成する新しいアプローチPartGenを紹介する。
まず、3Dオブジェクトの複数のビューが生成されたり、レンダリングされたりすると、多視点拡散モデルは、可視かつビューに一貫性のある部分のセグメンテーションのセットを抽出し、オブジェクトを部品に分割する。
次に、第2のマルチビュー拡散モデルが各部分を分離してオクルージョンを埋め、その完了したビューを3次元再構成ネットワークに供給することで3次元再構成に利用する。
この完了プロセスは、部品が凝集的に統合されることを保証するために、オブジェクト全体のコンテキストを考慮します。
生成完了モデルは、閉塞により欠落した情報を補うことができ、極端な場合、入力された3D資産に基づいて完全に見えない部分を幻覚させることができる。
提案手法は, 生成された実物および実物の3次元資産に対して評価し, セグメンテーションおよび部分抽出ベースラインを大きなマージンで上回っていることを示す。
また、3D部分編集などの下流アプリケーションも紹介する。
関連論文リスト
- SAMPart3D: Segment Any Part in 3D Objects [23.97392239910013]
3D部分のセグメンテーションは、3D知覚において重要な課題であり、ロボット工学、3D生成、および3D編集などのアプリケーションにおいて重要な役割を果たす。
最近の手法では、2次元から3次元の知識蒸留に強力なビジョン言語モデル(VLM)を用いており、ゼロショットの3次元部分分割を実現している。
本研究では,任意の3Dオブジェクトを複数の粒度のセマンティックな部分に分割する,スケーラブルなゼロショット3D部分分割フレームワークであるSAMPart3Dを紹介する。
論文 参考訳(メタデータ) (2024-11-11T17:59:10Z) - Part123: Part-aware 3D Reconstruction from a Single-view Image [54.589723979757515]
Part123は、一視点画像から部分認識された3D再構成のための新しいフレームワークである。
ニューラルレンダリングフレームワークにコントラスト学習を導入し、部分認識機能空間を学習する。
クラスタリングに基づくアルゴリズムも開発され、再構成されたモデルから3次元部分分割結果を自動的に導出する。
論文 参考訳(メタデータ) (2024-05-27T07:10:21Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - ONeRF: Unsupervised 3D Object Segmentation from Multiple Views [59.445957699136564]
OneRFは、追加のマニュアルアノテーションなしで、マルチビューのRGBイメージから3Dのオブジェクトインスタンスを自動的に分割し、再構成する手法である。
セグメント化された3Dオブジェクトは、様々な3Dシーンの編集と新しいビューレンダリングを可能にする別個のNeRF(Neural Radiance Fields)を使用して表現される。
論文 参考訳(メタデータ) (2022-11-22T06:19:37Z) - AutoSweep: Recovering 3D Editable Objectsfrom a Single Photograph [54.701098964773756]
セマンティックな部分で3Dオブジェクトを復元し、直接編集することを目的としている。
我々の研究は、一般化された立方体と一般化されたシリンダーという、2種類の原始的な形状の物体を回収する試みである。
提案アルゴリズムは,高品質な3Dモデルを復元し,既存手法のインスタンスセグメンテーションと3D再構成の両方で性能を向上する。
論文 参考訳(メタデータ) (2020-05-27T12:16:24Z) - CoReNet: Coherent 3D scene reconstruction from a single RGB image [43.74240268086773]
我々は1つのRBG画像のみを入力として与えられた1つの物体の形状を再構築する深層学習の進歩の上に構築する。
提案する3つの拡張は,(1)局所的な2次元情報を物理的に正しい方法で出力3Dボリュームに伝播するレイトレーシングスキップ接続,(2)翻訳同変モデルの構築を可能にするハイブリッド3Dボリューム表現,(3)全体オブジェクトの形状を捉えるために調整された再構成損失である。
すべての物体がカメラに対して一貫した1つの3次元座標フレームに居住し、3次元空間内では交差しないコヒーレントな再構成を実現する。
論文 参考訳(メタデータ) (2020-04-27T17:53:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。