論文の概要: A General Framework to Boost 3D GS Initialization for Text-to-3D Generation by Lexical Richness
- arxiv url: http://arxiv.org/abs/2408.01269v1
- Date: Fri, 2 Aug 2024 13:46:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-05 13:17:55.972704
- Title: A General Framework to Boost 3D GS Initialization for Text-to-3D Generation by Lexical Richness
- Title(参考訳): 語彙豊かさによるテキスト・ツー・3次元生成のための3次元GS初期化向上のための一般フレームワーク
- Authors: Lutao Jiang, Hangyu Li, Lin Wang,
- Abstract要約: 本稿では,3次元GS初期化を3次元から3次元に拡張する手法を提案する。
私たちのキーとなるアイデアは、複雑な形状を表すために3Dガウスを空間的に均一なボクセルにまとめることです。
私たちのフレームワークは、セマンティックに一貫したテキストから3D生成のために、例えばLucidDreamerのようなSoTAトレーニングフレームワークにシームレスにプラグインすることができます。
- 参考スコア(独自算出の注目度): 10.09002362480534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D content creation has recently received much attention, especially with the prevalence of 3D Gaussians Splatting. In general, GS-based methods comprise two key stages: initialization and rendering optimization. To achieve initialization, existing works directly apply random sphere initialization or 3D diffusion models, e.g., Point-E, to derive the initial shapes. However, such strategies suffer from two critical yet challenging problems: 1) the final shapes are still similar to the initial ones even after training; 2) shapes can be produced only from simple texts, e.g., "a dog", not for lexically richer texts, e.g., "a dog is sitting on the top of the airplane". To address these problems, this paper proposes a novel general framework to boost the 3D GS Initialization for text-to-3D generation upon the lexical richness. Our key idea is to aggregate 3D Gaussians into spatially uniform voxels to represent complex shapes while enabling the spatial interaction among the 3D Gaussians and semantic interaction between Gaussians and texts. Specifically, we first construct a voxelized representation, where each voxel holds a 3D Gaussian with its position, scale, and rotation fixed while setting opacity as the sole factor to determine a position's occupancy. We then design an initialization network mainly consisting of two novel components: 1) Global Information Perception (GIP) block and 2) Gaussians-Text Fusion (GTF) block. Such a design enables each 3D Gaussian to assimilate the spatial information from other areas and semantic information from texts. Extensive experiments show the superiority of our framework of high-quality 3D GS initialization against the existing methods, e.g., Shap-E, by taking lexically simple, medium, and hard texts. Also, our framework can be seamlessly plugged into SoTA training frameworks, e.g., LucidDreamer, for semantically consistent text-to-3D generation.
- Abstract(参考訳): テキストから3Dコンテンツの作成は、特に3Dガウススプラッティングの流行により、最近多くの注目を集めている。
一般に、GSベースの手法は初期化とレンダリング最適化という2つの重要な段階から構成される。
初期化を達成するために、既存の研究は、初期形状を導出するためにランダム球初期化または3次元拡散モデル(例えば、Point-E)を直接適用している。
しかし、このような戦略は2つの重大な難題に苦しむ。
1) 最終形状は,訓練後においても,初期形状と変わらず類似している。
2) 形状は単純なテキスト,例えば "a dog" からのみ生成できるが,これは語彙的にリッチなテキスト,例えば "a dog are on the top of the plane" のためではない。
これらの問題に対処するために,テキストから3D生成のための3次元GS初期化を語彙的豊かさに基づいて促進する,新しい汎用フレームワークを提案する。
我々のキーとなる考え方は、3Dガウスを空間的に均一なボクセルに集約し、複雑な形状を表現し、3Dガウスとテクスト間の空間的相互作用とガウスとテクスト間の意味的相互作用を可能にすることである。
具体的には、まず、各ボクセルが位置、スケール、回転を固定した3次元ガウスを持ち、不透明度を唯一の要因として設定し、位置の占有度を決定するボクセル化表現を構築する。
次に、主に2つの新しいコンポーネントからなる初期化ネットワークを設計する。
1)グローバルインフォメーション・パーセプション(GIP)ブロックと
2) Gaussians-Text Fusion (GTF) ブロック。
このような設計により、各3次元ガウスは、他の領域からの空間情報とテキストからの意味情報を同化することができる。
大規模な実験により,従来の手法であるShap-Eに対して,語彙的に単純,中,硬テキストを採り入れ,高品質な3D GS初期化の枠組みが優れていることが示された。
また、私たちのフレームワークは、セマンティックに一貫性のあるテキストから3D生成のためのSoTAトレーニングフレームワーク、例えばLucidDreamerにシームレスにプラグインすることができます。
関連論文リスト
- CompGS: Unleashing 2D Compositionality for Compositional Text-to-3D via Dynamically Optimizing 3D Gaussians [97.15119679296954]
CompGS は 3D Gaussian Splatting (GS) を用いた,効率的なテキストから3Dコンテンツ生成のための新しい生成フレームワークである。
CompGSは簡単に3D編集に拡張でき、シーン生成を容易にする。
論文 参考訳(メタデータ) (2024-10-28T04:35:14Z) - DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキスト記述のみで高度に一貫した3Dシーンを作成する方法であるDreamScapeを提案する。
本手法では,シーン表現のための3次元ガウスガイドを,意味的プリミティブ(オブジェクト)とその空間変換によって構成する。
プログレッシブスケール制御は、局所オブジェクト生成中に調整され、異なるサイズと密度のオブジェクトがシーンに適応することを保証する。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - GVGEN: Text-to-3D Generation with Volumetric Representation [89.55687129165256]
3Dガウススプラッティングは、高速で高品質なレンダリング機能で知られる3D再構成と生成のための強力な技術として登場した。
本稿では,テキスト入力から3次元ガウス表現を効率的に生成する新しい拡散型フレームワークGVGENを提案する。
論文 参考訳(メタデータ) (2024-03-19T17:57:52Z) - BrightDreamer: Generic 3D Gaussian Generative Framework for Fast Text-to-3D Synthesis [9.376238965029819]
本稿ではBrightDreamerについて述べる。BrightDreamerは、汎用的で高速(77ms)なテキスト・ツー・3D生成を実現するエンドツーエンドのシングルステージ・アプローチである。
まず、変形形状とその新しい位置を予測するために、テキスト誘導形状変形(TSD)ネットワークを提案する。
次に、3次元オブジェクトの3次元表現を生成するための新しいテキスト誘導三平面発電機を設計する。
論文 参考訳(メタデータ) (2024-03-17T17:04:45Z) - Hyper-3DG: Text-to-3D Gaussian Generation via Hypergraph [20.488040789522604]
本稿では,ハイパーグラフ(Hyper-3DG)を用いた3次元ガウス生成法を提案する。
本フレームワークは, 凝集度を最適化し, 劣化を効果的に回避し, 微細に生成した3Dオブジェクトの創出を可能にする。
論文 参考訳(メタデータ) (2024-03-14T09:59:55Z) - HyperSDFusion: Bridging Hierarchical Structures in Language and Geometry for Enhanced 3D Text2Shape Generation [55.95329424826433]
テキストから3次元形状を生成する2分岐拡散モデルHyperSDFusionを提案する。
双曲空間におけるテキストと3次元形状の階層的表現を学習する。
本手法は,テキスト・ツー・シェイプ生成のための双曲的階層表現を初めて探求する手法である。
論文 参考訳(メタデータ) (2024-03-01T08:57:28Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Text-to-3D using Gaussian Splatting [18.163413810199234]
本稿では,最新の最先端表現であるガウススプラッティングをテキストから3D生成に適用する新しい手法であるGSGENを提案する。
GSGENは、高品質な3Dオブジェクトを生成し、ガウススティングの明示的な性質を活用することで既存の欠点に対処することを目的としている。
我々の手法は繊細な細部と正確な形状で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2023-09-28T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。