論文の概要: ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2504.10316v1
- Date: Mon, 14 Apr 2025 15:25:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:51:24.804842
- Title: ESCT3D: Efficient and Selectively Controllable Text-Driven 3D Content Generation with Gaussian Splatting
- Title(参考訳): ESCT3D:ガウススプラッティングによる効率的かつ選択的制御可能なテキスト駆動型3Dコンテンツ生成
- Authors: Huiqi Wu, Jianbo Mei, Yingjie Huang, Yining Xu, Jingjiao You, Yilong Liu, Li Yao,
- Abstract要約: 本稿では, 自己最適化のための GPT-4V を提案する。
トレーニング中、多視点深度、マスク、特徴、画像を含む多視点情報を効果的に統合し、3Dコンテンツ生成における一般的なJanus問題に対処する。
- 参考スコア(独自算出の注目度): 1.9192034985779747
- License:
- Abstract: In recent years, significant advancements have been made in text-driven 3D content generation. However, several challenges remain. In practical applications, users often provide extremely simple text inputs while expecting high-quality 3D content. Generating optimal results from such minimal text is a difficult task due to the strong dependency of text-to-3D models on the quality of input prompts. Moreover, the generation process exhibits high variability, making it difficult to control. Consequently, multiple iterations are typically required to produce content that meets user expectations, reducing generation efficiency. To address this issue, we propose GPT-4V for self-optimization, which significantly enhances the efficiency of generating satisfactory content in a single attempt. Furthermore, the controllability of text-to-3D generation methods has not been fully explored. Our approach enables users to not only provide textual descriptions but also specify additional conditions, such as style, edges, scribbles, poses, or combinations of multiple conditions, allowing for more precise control over the generated 3D content. Additionally, during training, we effectively integrate multi-view information, including multi-view depth, masks, features, and images, to address the common Janus problem in 3D content generation. Extensive experiments demonstrate that our method achieves robust generalization, facilitating the efficient and controllable generation of high-quality 3D content.
- Abstract(参考訳): 近年,テキストによる3Dコンテンツ生成が著しく進歩している。
しかし、いくつかの課題が残っている。
実用アプリケーションでは、ユーザーは高品質な3Dコンテンツを期待しながら非常に単純なテキスト入力を提供することが多い。
このような最小限のテキストから最適な結果を生成することは、入力プロンプトの品質に対するテキストから3Dモデルへの強い依存のために難しい課題である。
さらに、生成プロセスは高い可変性を示し、制御が困難になる。
その結果、通常、複数のイテレーションは、ユーザの期待に応えて、生成効率を低下させるコンテンツを生成するために必要となる。
この問題に対処するため, 自己最適化のための GPT-4V を提案し, 単一試行において満足度の高いコンテンツを生成する効率を大幅に向上させる。
さらに,テキスト・ツー・3D生成手法の可制御性についても検討されていない。
提案手法では,テキスト記述だけでなく,スタイル,エッジ,スクリブル,ポーズ,複数条件の組み合わせなどの追加条件を指定でき,生成した3Dコンテンツをより正確に制御することができる。
さらに、トレーニング中に、多視点深度、マスク、特徴、画像を含む多視点情報を効果的に統合し、3Dコンテンツ生成における一般的なJanus問題に対処する。
大規模な実験により,本手法が堅牢な一般化を実現し,高品質な3Dコンテンツの効率的かつ制御可能な生成を可能にした。
関連論文リスト
- GaussianAnything: Interactive Point Cloud Flow Matching For 3D Object Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,単一画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - COMOGen: A Controllable Text-to-3D Multi-object Generation Framework [22.05619100307402]
本稿では,テキストから3次元のマルチオブジェクト生成フレームワークであるCOMOGenを紹介する。
COMOGenは、レイアウトとマルチビュー事前知識の蒸留により、複数の3Dオブジェクトを同時に生成することを可能にする。
総合的な実験は、最先端の手法と比較して、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2024-09-01T02:50:38Z) - A Survey On Text-to-3D Contents Generation In The Wild [5.875257756382124]
3Dコンテンツ作成は、ゲーム、ロボットシミュレーション、仮想現実など、さまざまなアプリケーションにおいて重要な役割を果たす。
この課題に対処するために、テキストから3D生成技術が、3D生成を自動化するための有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2024-05-15T15:23:22Z) - Grounded Compositional and Diverse Text-to-3D with Pretrained Multi-View Diffusion Model [65.58911408026748]
複雑な合成文のプロンプトを正確に追従できる3Dアセットを生成するために,グラウンドド・ドレーマーを提案する。
まず,テキスト・ツー・3Dパイプラインのボトルネックとして,テキスト誘導4視点画像の活用を提唱する。
次に,テキストアラインな4ビュー画像生成を促すための注意再焦点機構を導入する。
論文 参考訳(メタデータ) (2024-04-28T04:05:10Z) - Make-Your-3D: Fast and Consistent Subject-Driven 3D Content Generation [12.693847842218604]
5分以内に高忠実で一貫した3Dコンテンツをパーソナライズできる新しい3Dカスタマイズ手法「Make-Your-3D」を導入する。
我々の重要な洞察は、多視点拡散モデルとアイデンティティ特異的な2次元生成モデルの分布を調和させ、所望の3次元対象の分布と整合させることである。
提案手法は,高画質で一貫した,かつ主観的な3Dコンテンツを生成することができる。
論文 参考訳(メタデータ) (2024-03-14T17:57:04Z) - DiffusionGAN3D: Boosting Text-guided 3D Generation and Domain Adaptation by Combining 3D GANs and Diffusion Priors [26.0337715783954]
DiffusionGAN3Dは、3D GANと拡散前処理を組み合わせることで、テキスト誘導型3Dドメイン適応と生成を促進する。
提案フレームワークはドメイン適応とテキスト・トゥ・アバタータスクの両方において優れた結果が得られる。
論文 参考訳(メタデータ) (2023-12-28T05:46:26Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Instant3D: Instant Text-to-3D Generation [101.25562463919795]
Instant3Dと呼ばれる高速テキストから3D生成のための新しいフレームワークを提案する。
Instant3Dはフィードフォワードネットワークの単一実行で1秒未満で、目に見えないテキストプロンプトのための3Dオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2023-11-14T18:59:59Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z) - ATT3D: Amortized Text-to-3D Object Synthesis [78.96673650638365]
我々は、個別にではなく、統一されたモデルと同時に多くのプロンプトをトレーニングすることで、テキストプロンプトに対する最適化を保留する。
我々のフレームワークであるAmortized text-to-3D (ATT3D)は、プロンプト間の知識共有を可能にし、未知のセットアップに一般化し、新しいアセットのためのテキストと単純なアニメーション間のスムーズなスムーズさを実現する。
論文 参考訳(メタデータ) (2023-06-06T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。