論文の概要: Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2408.05938v1
- Date: Mon, 12 Aug 2024 06:25:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-08-13 14:45:05.036598
- Title: Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation
- Title(参考訳): 深部幾何学的モーメントはテキストから3次元生成における形状整合性を促進する
- Authors: Utkarsh Nath, Rajeev Goel, Eun Som Jeon, Changhoon Kim, Kyle Min, Yezhou Yang, Yingzhen Yang, Pavan Turaga,
- Abstract要約: MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
生成した2次元画像が基本形状と構造を保持することを保証するために,高品質な3次元モデルから導出される深度マップを制御信号として利用する。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
- 参考スコア(独自算出の注目度): 27.43973967994717
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: To address the data scarcity associated with 3D assets, 2D-lifting techniques such as Score Distillation Sampling (SDS) have become a widely adopted practice in text-to-3D generation pipelines. However, the diffusion models used in these techniques are prone to viewpoint bias and thus lead to geometric inconsistencies such as the Janus problem. To counter this, we introduce MT3D, a text-to-3D generative model that leverages a high-fidelity 3D object to overcome viewpoint bias and explicitly infuse geometric understanding into the generation pipeline. Firstly, we employ depth maps derived from a high-quality 3D model as control signals to guarantee that the generated 2D images preserve the fundamental shape and structure, thereby reducing the inherent viewpoint bias. Next, we utilize deep geometric moments to ensure geometric consistency in the 3D representation explicitly. By incorporating geometric details from a 3D asset, MT3D enables the creation of diverse and geometrically consistent objects, thereby improving the quality and usability of our 3D representations.
- Abstract(参考訳): 3Dアセットに関連するデータ不足に対処するため、SDS(Score Distillation Sampling)のような2Dリフト技術がテキストから3D生成パイプラインにおいて広く採用されている。
しかし、これらの手法で用いられる拡散モデルは、視点バイアスに傾向があり、従ってヤヌス問題のような幾何学的不整合をもたらす。
これに対応するために,高忠実度3Dオブジェクトを利用したテキストから3D生成モデルMT3Dを導入し,視点バイアスを克服し,幾何学的理解を生成パイプラインに明示的に注入する。
まず,高品質な3Dモデルから得られた深度マップを制御信号とし,生成した2D画像が基本形状や構造を保っていることを保証する。
次に,3次元表現における幾何学的整合性を明確にするために,深部幾何学的モーメントを利用する。
MT3Dは3Dアセットから幾何学的詳細を取り入れることで、多様で幾何学的に一貫したオブジェクトの作成を可能にし、3D表現の品質とユーザビリティを向上させる。
関連論文リスト
- Eval3D: Interpretable and Fine-grained Evaluation for 3D Generation [134.53804996949287]
生成した3D資産の品質を忠実に評価できる細粒度で解釈可能な評価ツールであるEval3Dを紹介する。
我々のキーとなる観察は、意味論や幾何学的整合性といった3D生成の多くの望ましい特性を効果的に捉えられることである。
以前の研究と比較すると、Eval3Dはピクセル単位での測定を行い、正確な3D空間フィードバックを可能にし、人間の判断とより密に一致させる。
論文 参考訳(メタデータ) (2025-04-25T17:22:05Z) - GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。
具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。
その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文 参考訳(メタデータ) (2025-03-08T09:10:31Z) - Enhancing Single Image to 3D Generation using Gaussian Splatting and Hybrid Diffusion Priors [17.544733016978928]
単一の画像から3Dオブジェクトを生成するには、野生で撮影された未ポーズのRGB画像から、目に見えない景色の完全な3D形状とテクスチャを推定する必要がある。
3次元オブジェクト生成の最近の進歩は、物体の形状とテクスチャを再構築する技術を導入している。
本稿では, この限界に対応するために, 2次元拡散モデルと3次元拡散モデルとのギャップを埋めることを提案する。
論文 参考訳(メタデータ) (2024-10-12T10:14:11Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer [26.375689838055774]
Direct3Dは、Wildの入力画像にスケーラブルなネイティブな3D生成モデルである。
提案手法は, 直接3次元変分オートエンコーダ(D3D-VAE)と直接3次元拡散変換器(D3D-DiT)の2成分からなる。
論文 参考訳(メタデータ) (2024-05-23T17:49:37Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - Retrieval-Augmented Score Distillation for Text-to-3D Generation [30.57225047257049]
テキストから3D生成における検索に基づく品質向上のための新しいフレームワークを提案する。
我々はReDreamが幾何整合性を高めて優れた品質を示すことを示すために広範な実験を行った。
論文 参考訳(メタデータ) (2024-02-05T12:50:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - GeoDream: Disentangling 2D and Geometric Priors for High-Fidelity and
Consistent 3D Generation [66.46683554587352]
そこで,GeoDreamは,2次元拡散プリエントを持つ明示的な一般化された3Dプリエントを組み込んだ新しい手法である。
具体的には,まず多視点拡散モデルを用いてポーズ画像を生成し,予測画像からコスト容積を構築する。
さらに,3次元の幾何学的先行性を利用して,不整合設計による2次元拡散先行性における3次元認識の大きな可能性を解き放つことを提案する。
論文 参考訳(メタデータ) (2023-11-29T15:48:48Z) - SweetDreamer: Aligning Geometric Priors in 2D Diffusion for Consistent
Text-to-3D [40.088688751115214]
事前学習した拡散モデルからテキストから3D生成のための3次元世界へ2D結果を持ち上げることは本質的に不明瞭である。
昇降時の3次元形状をよく定義した拡散モデルにおける2次元幾何学的先行を整列させて整合性を向上させる。
提案手法は,人間の評価によって85%以上の一貫性を有する新しい最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-04T05:59:50Z) - Points-to-3D: Bridging the Gap between Sparse Points and
Shape-Controllable Text-to-3D Generation [16.232803881159022]
本稿では,スパースで自由な3Dポイントとリアルな形状制御可能な3D生成とのギャップを埋めるために,Points-to-3Dのフレキシブルなフレームワークを提案する。
Points-to-3Dの基本的な考え方は、テキストから3D生成を導くために制御可能なスパース3Dポイントを導入することである。
論文 参考訳(メタデータ) (2023-07-26T02:16:55Z) - Magic123: One Image to High-Quality 3D Object Generation Using Both 2D
and 3D Diffusion Priors [104.79392615848109]
Magic123は、高品質でテクスチャ化された3Dメッシュのための、2段階の粗大なアプローチである。
最初の段階では、粗い幾何学を生成するために、神経放射場を最適化する。
第2段階では、視覚的に魅力的なテクスチャを持つ高分解能メッシュを生成するために、メモリ効率のよい微分可能なメッシュ表現を採用する。
論文 参考訳(メタデータ) (2023-06-30T17:59:08Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。
具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。
本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-07-29T12:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。