論文の概要: IPDreamer: Appearance-Controllable 3D Object Generation with Image
Prompts
- arxiv url: http://arxiv.org/abs/2310.05375v2
- Date: Mon, 13 Nov 2023 13:14:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-14 20:12:42.501267
- Title: IPDreamer: Appearance-Controllable 3D Object Generation with Image
Prompts
- Title(参考訳): IPDreamer:画像プロンプトによる外観制御可能な3Dオブジェクト生成
- Authors: Bohan Zeng, Shanglin Li, Yutang Feng, Hong Li, Sicheng Gao, Jiaming
Liu, Huaxia Li, Xu Tang, Jianzhuang Liu, Baochang Zhang
- Abstract要約: 我々は、画像プロンプトを組み込んだ新しいアプローチであるIDDreamerを導入し、3Dオブジェクト生成のための具体的で包括的な外観情報を提供する。
IPDreamerは,提案したテキストと画像のプロンプトに整合した高品質な3Dオブジェクトを効果的に生成することを示す。
- 参考スコア(独自算出の注目度): 49.77322763142142
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-3D generation have been remarkable, with methods
such as DreamFusion leveraging large-scale text-to-image diffusion-based models
to supervise 3D generation. These methods, including the variational score
distillation proposed by ProlificDreamer, enable the synthesis of detailed and
photorealistic textured meshes. However, the appearance of 3D objects generated
by these methods is often random and uncontrollable, posing a challenge in
achieving appearance-controllable 3D objects. To address this challenge, we
introduce IPDreamer, a novel approach that incorporates image prompts to
provide specific and comprehensive appearance information for 3D object
generation. Our results demonstrate that IPDreamer effectively generates
high-quality 3D objects that are consistent with both the provided text and
image prompts, demonstrating its promising capability in
appearance-controllable 3D object generation.
- Abstract(参考訳): 近年のテキスト・ツー・3D生成の進歩は目覚ましいもので、DreamFusionは大規模なテキスト・ツー・イメージ拡散モデルを利用して3D生成を監督する。
これらの方法は、ProlificDreamerによって提案された変分点蒸留を含むもので、詳細かつ光現実的なテクスチャメッシュの合成を可能にする。
しかし、これらの手法によって生成された3Dオブジェクトの出現はランダムで制御不能であり、外観制御可能な3Dオブジェクトを達成する上での課題である。
この課題に対処するために、画像プロンプトを組み込んだ新しいアプローチであるIDDreamerを導入し、3Dオブジェクト生成のための具体的で包括的な外観情報を提供する。
IPDreamerはテキストと画像のプロンプトの両方に整合した高品質な3Dオブジェクトを効果的に生成し、外観制御可能な3Dオブジェクト生成に期待できる能力を示した。
関連論文リスト
- 3D-Adapter: Geometry-Consistent Multi-View Diffusion for High-Quality 3D Generation [45.218605449572586]
3D-Adapterは、3D幾何学的認識を事前訓練された画像拡散モデルに注入するために設計されたプラグインモジュールである。
Instant3DやZero123++のようなテキスト・ツー・マルチビューモデルの幾何学的品質を大幅に向上させることを示す。
また,テキスト・ツー・3D,画像・ツー・3D,テキスト・トゥ・テクスチャ,テキスト・トゥ・アバタータスクにおいて,高品質な結果を示すことで,3D-Adapterの幅広い応用可能性を示す。
論文 参考訳(メタデータ) (2024-10-24T17:59:30Z) - Geometry Image Diffusion: Fast and Data-Efficient Text-to-3D with Image-Based Surface Representation [2.3213238782019316]
GIMDiffusionは、幾何学画像を利用して2次元画像を用いて3次元形状を効率よく表現する新しいテキスト・ツー・3Dモデルである。
安定拡散のような既存のテキスト・ツー・イメージモデルのリッチな2次元先行モデルを利用する。
簡単に言うと、GIMDiffusionは現行のText-to-Imageモデルに匹敵する速度で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-09-05T17:21:54Z) - MUSES: 3D-Controllable Image Generation via Multi-Modal Agent Collaboration [29.657854912416038]
ユーザクエリから3次元制御可能な画像生成のための汎用AIシステムであるMUSESを導入する。
このマルチモーダルエージェントパイプラインは、人間のプロのコラボレーションを模倣することにより、3D制御可能なオブジェクトによる画像の効果的かつ自動生成を容易にする。
我々はT2I-3DisBench(3D画像シーン)の新しいベンチマークを構築し、50の詳細なプロンプトを持つ多様な3D画像シーンを記述した。
論文 参考訳(メタデータ) (2024-08-20T07:37:23Z) - RealmDreamer: Text-Driven 3D Scene Generation with Inpainting and Depth Diffusion [39.03289977892935]
RealmDreamerはテキスト記述から一般的な前方向きの3Dシーンを生成する技術である。
我々の技術はビデオやマルチビューのデータを必要とせず、様々なスタイルの高品質な3Dシーンを合成することができる。
論文 参考訳(メタデータ) (2024-04-10T17:57:41Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Sculpt3D: Multi-View Consistent Text-to-3D Generation with Sparse 3D Prior [57.986512832738704]
本稿では,2次元拡散モデルを再学習することなく,抽出した参照オブジェクトから3次元先行を明示的に注入する,電流パイプラインを備えた新しいフレームワークSculpt3Dを提案する。
具体的には、スパース線サンプリングによるキーポイントの監督により、高品質で多様な3次元形状を保証できることを実証する。
これら2つの分離された設計は、参照オブジェクトからの3D情報を利用して、2D拡散モデルの生成品質を保ちながら、3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2024-03-14T07:39:59Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - 3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation [107.46972849241168]
3D-TOGOモデルは、良好なテクスチャを持つニューラルレージアンスフィールドの形で3Dオブジェクトを生成する。
最大3Dオブジェクトデータセット(ABO)の実験を行い、3D-TOGOが高品質な3Dオブジェクトをより良く生成できることを検証する。
論文 参考訳(メタデータ) (2022-12-02T11:31:49Z) - 3D-Aware Semantic-Guided Generative Model for Human Synthesis [67.86621343494998]
本稿では,人間の画像合成のための3D-SGAN(Semantic-Guided Generative Model)を提案する。
DeepFashionデータセットに関する我々の実験は、3D-SGANが最新のベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2021-12-02T17:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。