論文の概要: Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2307.13908v1
- Date: Wed, 26 Jul 2023 02:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 13:58:42.102803
- Title: Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation
- Title(参考訳): 点対3D: スパース点と形状制御可能なテキスト対3D生成のギャップを埋める
- Authors: Chaohui Yu, Qiang Zhou, Jingliang Li, Zhe Zhang, Zhibin Wang, Fan Wang
- Abstract要約: 本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
- 参考スコア(独自算出の注目度): 16.232803881159022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-3D generation has recently garnered significant attention, fueled by
2D diffusion models trained on billions of image-text pairs. Existing methods
primarily rely on score distillation to leverage the 2D diffusion priors to
supervise the generation of 3D models, e.g., NeRF. However, score distillation
is prone to suffer the view inconsistency problem, and implicit NeRF modeling
can also lead to an arbitrary shape, thus leading to less realistic and
uncontrollable 3D generation. In this work, we propose a flexible framework of
Points-to-3D to bridge the gap between sparse yet freely available 3D points
and realistic shape-controllable 3D generation by distilling the knowledge from
both 2D and 3D diffusion models. The core idea of Points-to-3D is to introduce
controllable sparse 3D points to guide the text-to-3D generation. Specifically,
we use the sparse point cloud generated from the 3D diffusion model, Point-E,
as the geometric prior, conditioned on a single reference image. To better
utilize the sparse 3D points, we propose an efficient point cloud guidance loss
to adaptively drive the NeRF's geometry to align with the shape of the sparse
3D points. In addition to controlling the geometry, we propose to optimize the
NeRF for a more view-consistent appearance. To be specific, we perform score
distillation to the publicly available 2D image diffusion model ControlNet,
conditioned on text as well as depth map of the learned compact geometry.
Qualitative and quantitative comparisons demonstrate that Points-to-3D improves
view consistency and achieves good shape controllability for text-to-3D
generation. Points-to-3D provides users with a new way to improve and control
text-to-3D generation.
- Abstract(参考訳): 数十億もの画像テキストペアでトレーニングされた2d拡散モデルによって、テキストから3dへの生成が注目されている。
既存の方法は、主に2D拡散の先行を利用して3Dモデル、例えばNeRFの生成を監督するためにスコア蒸留に依存している。
しかし、スコア蒸留は視界の不整合に悩まされがちであり、暗黙のNeRFモデリングもまた任意の形状につながり、現実的で制御不能な3D生成につながる。
本研究では,3次元拡散モデルと2次元拡散モデルの両方から知識を抽出することにより,スパースで自由な3次元点と現実的な形状制御可能な3次元点とのギャップを埋めることのできるポイントツー3Dの柔軟な枠組みを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
具体的には、3次元拡散モデルであるPoint-Eから生成されたスパース点雲を1つの参照画像に条件付き幾何学的先行として用いる。
スパース3D点をよりよく活用するために,このスパース3D点の形状に合わせて,NeRFの形状を適応的に駆動する効率的な点雲誘導損失を提案する。
幾何制御に加えて,より視界に一貫性のある外観に最適化することを提案する。
具体的には,公開された2次元画像拡散モデル制御ネットにスコア蒸留を行い,テキストを条件とし,学習したコンパクト幾何の奥行きマップを作成する。
定性的かつ定量的な比較は、Points-to-3Dがビューの一貫性を改善し、テキストから3D生成のための良好な形状制御を実現することを示す。
Points-to-3Dは、テキストから3D生成を改善し制御する新しい方法を提供する。
関連論文リスト
- Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - IM-3D: Iterative Multiview Diffusion and Reconstruction for High-Quality
3D Generation [96.32684334038278]
本稿では,テキスト・ツー・3Dモデルの設計空間について検討する。
画像生成装置の代わりに映像を考慮し、マルチビュー生成を大幅に改善する。
IM-3Dは,2次元ジェネレータネットワーク10-100xの評価回数を削減する。
論文 参考訳(メタデータ) (2024-02-13T18:59:51Z) - DiT-3D: Exploring Plain Diffusion Transformers for 3D Shape Generation [49.22974835756199]
本稿では,3次元形状生成のための新しい拡散変換器,すなわちDiT-3Dを提案する。
既存のU-Netアプローチと比較して、私たちのDiT-3Dはモデルサイズがよりスケーラブルで、より高品質な世代を生み出す。
ShapeNetデータセットの実験結果から,提案したDiT-3Dが最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2023-07-04T17:15:46Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Adding 3D Geometry Control to Diffusion Models [33.51302774983434]
拡散モデルは、自然言語の記述からフォトリアリスティックな画像を生成する。
これらのモデルでは、生成された画像の3D構造を明示的に制御することができない。
本研究では,3次元形状制御を拡散モデルに組み込む手法を提案する。
論文 参考訳(メタデータ) (2023-06-13T19:48:56Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - Learning geometry-image representation for 3D point cloud generation [5.3485743892868545]
本稿では、3次元点雲生成問題を2次元幾何画像生成問題に変換するための新しい幾何画像ベースジェネレータ(GIG)を提案する。
剛性および非剛性な3次元オブジェクトデータセットの実験により,本手法の有望な性能を実証した。
論文 参考訳(メタデータ) (2020-11-29T05:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。