論文の概要: DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2404.06119v1
- Date: Tue, 9 Apr 2024 08:41:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-10 15:29:31.348884
- Title: DreamView: Injecting View-specific Text Guidance into Text-to-3D Generation
- Title(参考訳): DreamView: ビュー固有のテキストガイダンスをテキストから3D生成に注入する
- Authors: Junkai Yan, Yipeng Gao, Qize Yang, Xihan Wei, Xuansong Xie, Ancong Wu, Wei-Shi Zheng,
- Abstract要約: DreamViewは、全体的な一貫性を維持しながら、マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチである。
DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体オブジェクトのグローバルな一貫性のバランスを取ることができる。
- 参考スコア(独自算出の注目度): 44.411259508748046
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-3D generation, which synthesizes 3D assets according to an overall text description, has significantly progressed. However, a challenge arises when the specific appearances need customizing at designated viewpoints but referring solely to the overall description for generating 3D objects. For instance, ambiguity easily occurs when producing a T-shirt with distinct patterns on its front and back using a single overall text guidance. In this work, we propose DreamView, a text-to-image approach enabling multi-view customization while maintaining overall consistency by adaptively injecting the view-specific and overall text guidance through a collaborative text guidance injection module, which can also be lifted to 3D generation via score distillation sampling. DreamView is trained with large-scale rendered multi-view images and their corresponding view-specific texts to learn to balance the separate content manipulation in each view and the global consistency of the overall object, resulting in a dual achievement of customization and consistency. Consequently, DreamView empowers artists to design 3D objects creatively, fostering the creation of more innovative and diverse 3D assets. Code and model will be released at https://github.com/iSEE-Laboratory/DreamView.
- Abstract(参考訳): テキスト記述に従って3Dアセットを合成するテキスト・ツー・3D生成は著しく進歩している。
しかし、指定した視点をカスタマイズする必要があるが、3Dオブジェクトを生成するための全体的な記述にのみ言及する場合に、課題が生じる。
例えば、前と後ろに異なるパターンを持つTシャツを1つの全体テキストガイダンスで作成する場合、曖昧さは容易に発生します。
本研究では,協調的なテキスト誘導インジェクションモジュールを通じて,ビュー固有および全体テキストガイダンスを適応的に注入することで,総合的な一貫性を維持しつつ,マルチビューのカスタマイズを可能にするテキスト・ツー・イメージのアプローチであるDreamViewを提案する。
DreamViewは、大規模なレンダリングされたマルチビューイメージと、それに対応するビュー固有のテキストでトレーニングされ、各ビューにおける個別のコンテンツ操作と、全体的なオブジェクトのグローバルな一貫性のバランスをとることができる。
その結果、DreamViewはアーティストに3Dオブジェクトを創造的にデザインする権限を与え、より革新的で多様な3Dアセットの作成を促進する。
コードとモデルはhttps://github.com/iSEE-Laboratory/DreamView.comでリリースされる。
関連論文リスト
- SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [45.70819890915097]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - IPDreamer: Appearance-Controllable 3D Object Generation with Image
Prompts [49.77322763142142]
本稿では,3次元オブジェクト生成のための具体的かつ包括的な外観情報を含む新しいアプローチであるIDDreamerを紹介する。
以上の結果から,IDDreamerは提供されたテキストと複雑な画像プロンプトの出現の両方に整合した高品質な3Dオブジェクトを効果的に生成できることが示唆された。
論文 参考訳(メタデータ) (2023-10-09T03:11:08Z) - ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with
GPT and Prototype Guidance [48.748738590964216]
視覚的グラウンドティングのための多視点フレームワークであるViewReferを提案する。
テキストブランチでは、ViewReferは単一の接地テキストを複数の幾何学的な記述に拡張する。
3次元モードでは、ビュー間でのオブジェクトの相互作用を促進するために、ビュー間の注意を伴うトランスフォーマー融合モジュールが導入された。
論文 参考訳(メタデータ) (2023-03-29T17:59:10Z) - DreamBooth3D: Subject-Driven Text-to-3D Generation [43.14506066034495]
そこで,DreamBooth3Dを提案する。DreamBooth3Dは,テキストから3Dへの生成モデルを3~6個の画像からパーソナライズする手法である。
これらの手法を鼻で組み合わせると、被験者の入力視点に過度に適合するパーソナライズされたテキスト・ツー・イメージ・モデルにより、満足のいく主題固有の3Dアセットが得られないことがわかった。
提案手法は,新規なポーズ,色,属性などのテキスト操作によって,被験者の入力画像にない高品質な3Dアセットを作成できる。
論文 参考訳(メタデータ) (2023-03-23T17:59:00Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。