論文の概要: 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.05464v1
- Date: Thu, 9 Nov 2023 15:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 14:54:37.320076
- Title: 3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with
2D Diffusion Models
- Title(参考訳): 3dstyle-diffusion:2次元拡散モデルによるきめ細かなテキスト駆動3dスタイライゼーションの追求
- Authors: Haibo Yang and Yang Chen and Yingwei Pan and Ting Yao and Zhineng Chen
and Tao Mei
- Abstract要約: テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
2次元拡散モデルから制御可能な外観と幾何学的ガイダンスを付加した3次元メッシュのきめ細かいスタイリングをトリガーする新しい3DStyle-Diffusionモデルを提案する。
- 参考スコア(独自算出の注目度): 102.75875255071246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D content creation via text-driven stylization has played a fundamental
challenge to multimedia and graphics community. Recent advances of cross-modal
foundation models (e.g., CLIP) have made this problem feasible. Those
approaches commonly leverage CLIP to align the holistic semantics of stylized
mesh with the given text prompt. Nevertheless, it is not trivial to enable more
controllable stylization of fine-grained details in 3D meshes solely based on
such semantic-level cross-modal supervision. In this work, we propose a new
3DStyle-Diffusion model that triggers fine-grained stylization of 3D meshes
with additional controllable appearance and geometric guidance from 2D
Diffusion models. Technically, 3DStyle-Diffusion first parameterizes the
texture of 3D mesh into reflectance properties and scene lighting using
implicit MLP networks. Meanwhile, an accurate depth map of each sampled view is
achieved conditioned on 3D mesh. Then, 3DStyle-Diffusion leverages a
pre-trained controllable 2D Diffusion model to guide the learning of rendered
images, encouraging the synthesized image of each view semantically aligned
with text prompt and geometrically consistent with depth map. This way
elegantly integrates both image rendering via implicit MLP networks and
diffusion process of image synthesis in an end-to-end fashion, enabling a
high-quality fine-grained stylization of 3D meshes. We also build a new dataset
derived from Objaverse and the evaluation protocol for this task. Through both
qualitative and quantitative experiments, we validate the capability of our
3DStyle-Diffusion. Source code and data are available at
\url{https://github.com/yanghb22-fdu/3DStyle-Diffusion-Official}.
- Abstract(参考訳): テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。
クロスモーダル基盤モデル(例えばCLIP)の最近の進歩により、この問題は実現可能になった。
これらのアプローチは、sylized meshの全体的なセマンティクスを所定のテキストプロンプトに合わせるために、clipを一般的に活用している。
それでも、このようなセマンティックレベルのクロスモーダル監視のみに基づいて、より制御可能な3Dメッシュの詳細なスタイリングを可能にすることは容易ではない。
本研究では,3次元メッシュの細粒度スタイライゼーションをトリガーし,制御可能な外観と2次元拡散モデルからの幾何学的指導を付加した,新しい3次元型ディフフュージョンモデルを提案する。
技術的には、3DStyle-Diffusionは3Dメッシュのテクスチャを暗黙のMLPネットワークを用いた反射特性とシーンライティングにパラメータ化する。
一方、3Dメッシュ上で各サンプルビューの正確な深度マップを条件付けする。
次に、3DStyle-Diffusionは、事前学習可能な2次元拡散モデルを利用してレンダリング画像の学習を誘導し、テキストプロンプトにセマンティックに整合した各ビューの合成画像を深度マップに幾何学的に整合させる。
これにより、暗黙のMLPネットワークによる画像レンダリングと画像合成の拡散過程をエンドツーエンドでエレガントに統合し、高品質な3Dメッシュスタイリングを可能にする。
また、Objaverseから派生した新しいデータセットと、このタスクの評価プロトコルを構築した。
定性的および定量的な実験により、3DStyle-Diffusionの有効性を検証する。
ソースコードとデータは \url{https://github.com/yanghb22-fdu/3dstyle-diffusion-official} で入手できる。
関連論文リスト
- Isotropic3D: Image-to-3D Generation Based on a Single CLIP Embedding [16.50466940644004]
入力としてCLIPを埋め込んだ画像のみを取り込む画像から3D生成パイプラインであるIsotropic3Dを提案する。
等方性3Dは、最適化をSDS損失のみを静止させることで、方位角の等方性w.r.t.にすることができる。
論文 参考訳(メタデータ) (2024-03-15T15:27:58Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - ARTIC3D: Learning Robust Articulated 3D Shapes from Noisy Web Image
Collections [71.46546520120162]
単眼画像から動物体のような3D関節形状を推定することは、本質的に困難である。
本稿では,スパース画像コレクションから各物体の形状を再構築する自己教師型フレームワークARTIC3Dを提案する。
我々は、剛性部分変換の下で、描画された形状とテクスチャを微調整することで、現実的なアニメーションを作成する。
論文 参考訳(メタデータ) (2023-06-07T17:47:50Z) - HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks [101.36230756743106]
本論文は,2次元画像の中間表現として,2次元領域と3次元領域を3次元フィールドで橋渡しする3次元GANの成功に着想を得たものである。
本稿では,3次元ポートレートスタイリングのための3次元認識型GANをベースとしたHyperStyle3Dという新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-19T07:22:05Z) - Text2Room: Extracting Textured 3D Meshes from 2D Text-to-Image Models [21.622420436349245]
入力としてテキストプロンプトからルームスケールのテクスチャ化された3Dメッシュを生成する方法であるText2Roomを提案する。
我々は、事前訓練された2次元テキスト・画像モデルを利用して、異なるポーズから画像列を合成する。
これらの出力を一貫した3次元シーン表現に引き上げるために、単眼深度推定とテキスト条件のインペイントモデルを組み合わせる。
論文 参考訳(メタデータ) (2023-03-21T16:21:02Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z) - Next3D: Generative Neural Texture Rasterization for 3D-Aware Head
Avatars [36.4402388864691]
3D-Aware Generative Adversarial Network (GANs) は, 単一視点2D画像のコレクションのみを用いて, 高忠実かつ多視点の顔画像を合成する。
最近の研究は、3D Morphable Face Model (3DMM) を用いて、生成放射場における変形を明示的または暗黙的に記述している。
本研究では,非構造化2次元画像から生成的,高品質,かつ3D一貫性のある顔アバターの教師なし学習のための新しい3D GANフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-21T06:40:46Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。