論文の概要: DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2404.06119v1
- Date: Tue, 9 Apr 2024 08:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.348884
- Title: DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation
- Title(参考訳): DreamView: ビュー固有のテキストガイダンスをテキストから3D生成に注入する
- Authors: Junkai Yan, Yipeng Gao, Qize Yang, Xihan Wei, Xuansong Xie, Ancong Wu, Wei-Shi Zheng,
- Abstract要約: DreamViewは、全体的な一貫性を維持しながら、マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチである。
DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体オブジェクトのグローバルな一貫性のバランスを取ることができる。
- 参考スコア(独自算出の注目度): 44.411259508748046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation, which synthesizes 3D assets according to an overall text description, has significantly progressed. However, a challenge arises when the specific appearances need customizing at designated viewpoints but referring solely to the overall description for generating 3D objects. For instance, ambiguity easily occurs when producing a T-shirt with distinct patterns on its front and back using a single overall text guidance. In this work, we propose DreamView, a text-to-image approach enabling multi-view customization while maintaining overall consistency by adaptively injecting the view-specific and overall text guidance through a collaborative text guidance injection module, which can also be lifted to 3D generation via score distillation sampling. DreamView is trained with large-scale rendered multi-view images and their corresponding view-specific texts to learn to balance the separate content manipulation in each view and the global consistency of the overall object, resulting in a dual achievement of customization and consistency. Consequently, DreamView empowers artists to design 3D objects creatively, fostering the creation of more innovative and diverse 3D assets. Code and model will be released at https://github.com/iSEE-Laboratory/DreamView.
- Abstract(参考訳): テキスト記述に従って3Dアセットを合成するテキスト・ツー・3D生成は著しく進歩している。
しかし、指定した視点をカスタマイズする必要があるが、3Dオブジェクトを生成するための全体的な記述にのみ言及する場合に、課題が生じる。
例えば、前と後ろに異なるパターンを持つTシャツを1つの全体テキストガイダンスで作成する場合、曖昧さは容易に発生します。
本研究では,協調的なテキスト誘導インジェクションモジュールを通じて,ビュー固有および全体テキストガイダンスを適応的に注入することで,総合的な一貫性を維持しつつ,マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチであるDreamViewを提案する。
DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体的なオブジェクトのグローバルな一貫性のバランスをとることができる。
その結果、DreamViewはアーティストに3Dオブジェクトを創造的にデザインする権限を与え、より革新的で多様な3Dアセットの作成を促進する。
コードとモデルはhttps://github.com/iSEE-Laboratory/DreamView.comでリリースされる。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - ControlDreamer: Blending Geometry and Style in Text-to-3D [34.92628800597151]
我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
論文 参考訳(メタデータ) (2023-12-02T13:04:54Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Complex Image Prompts [90.49024750432139]
IPDreamerは複雑な$textbfI$mage $textbfP$romptsから複雑な外観特徴をキャプチャし、合成した3Dオブジェクトをこれらの特徴と整合させる。
IPDreamerはテキストと複雑な画像のプロンプトに整合した高品質な3Dオブジェクトを一貫して生成することを示した。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。