論文の概要: ControlDreamer: Stylized 3D Generation with Multi-View ControlNet
- arxiv url: http://arxiv.org/abs/2312.01129v2
- Date: Fri, 5 Jan 2024 05:03:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 17:39:08.491652
- Title: ControlDreamer: Stylized 3D Generation with Multi-View ControlNet
- Title(参考訳): controldreamer:マルチビューコントロールネットによるスタイリッシュな3d生成
- Authors: Yeongtak Oh, Jooyoung Choi, Yongsung Kim, Minjun Park, Chaehun Shin,
and Sungroh Yoon
- Abstract要約: 我々は、慎重にキュレートされたテキストコーパスからデータセットに基づいて訓練された、新しい深度対応多視点拡散モデルであるMulti-view ControlNetを紹介する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
- 参考スコア(独自算出の注目度): 34.92628800597151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in text-to-3D generation have significantly contributed
to the automation and democratization of 3D content creation. Building upon
these developments, we aim to address the limitations of current methods in
generating 3D models with creative geometry and styles. We introduce multi-view
ControlNet, a novel depth-aware multi-view diffusion model trained on generated
datasets from a carefully curated text corpus. Our multi-view ControlNet is
then integrated into our two-stage pipeline, ControlDreamer, enabling
text-guided generation of stylized 3D models. Additionally, we present a
comprehensive benchmark for 3D style editing, encompassing a broad range of
subjects, including objects, animals, and characters, to further facilitate
research on diverse 3D generation. Our comparative analysis reveals that this
new pipeline outperforms existing text-to-3D methods as evidenced by human
evaluations and CLIP score metrics.
- Abstract(参考訳): テキスト3d生成の最近の進歩は、3dコンテンツ作成の自動化と民主化に大きく貢献している。
これらの発展を踏まえ、創造的な幾何学とスタイルを持つ3dモデルの生成における、現在の方法の限界に対処することを目的としている。
テキストコーパスから生成したデータセットに基づいて学習した,深度を考慮した新しい多視点拡散モデルであるMulti-view ControlNetを導入する。
マルチビューコントロールネットは、2段階のパイプラインであるControlDreamerに統合され、テキストガイドによるスタイリングされた3Dモデルの生成を可能にします。
さらに,オブジェクト,動物,キャラクタなど幅広い対象を包含した3Dスタイル編集のための総合的なベンチマークを提示し,多種多様な3D生成の研究を促進する。
比較分析の結果、このパイプラインは、人間の評価やクリップスコアの指標で示されるように、既存のtext-to-3dメソッドよりも優れています。
関連論文リスト
- SeMv-3D: Towards Semantic and Mutil-view Consistency simultaneously for General Text-to-3D Generation with Triplane Priors [115.66850201977887]
汎用テキストから3d生成のための新しいフレームワークであるSeMv-3Dを提案する。
3次元の空間的特徴を持つ3次元平面先行学習を学習し、3次元の異なる視点間の整合性を維持する三次元平面先行学習器を提案する。
また,3次元空間特徴とテキスト・セマンティクスとの整合性を保持するセマンティック・アラインメント・ビュー・シンセサイザーを設計する。
論文 参考訳(メタデータ) (2024-10-10T07:02:06Z) - Text-to-3D Shape Generation [18.76771062964711]
テキストから3Dの形状生成が可能な計算システムは、一般的な想像力を魅了している。
本稿では,背景文献を要約するテキスト・ツー・3次元形状生成を可能にする基礎技術と手法について調査する。
そこで本研究では,テキスト・ツー・3次元形状生成に関する最近の研究の体系的分類を,必要な監視データの種類に基づいて導出した。
論文 参考訳(メタデータ) (2024-03-20T04:03:44Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - ViewDiff: 3D-Consistent Image Generation with Text-to-Image Models [65.22994156658918]
実世界のデータから1つの認知過程において多視点画像を生成することを学習する手法を提案する。
我々は、任意の視点でより多くの3D一貫性のある画像をレンダリングする自己回帰生成を設計する。
論文 参考訳(メタデータ) (2024-03-04T07:57:05Z) - VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder [56.59814904526965]
本稿では,テキストから3D生成のための先駆的な3Dエンコーダを提案する。
マルチビュー画像から特徴ボリュームを効率よく取得する軽量ネットワークを開発した。
3Dボリュームは、3D U-Netを使用してテキストから3D生成のための拡散モデルに基づいて訓練される。
論文 参考訳(メタデータ) (2023-12-18T18:59:05Z) - Mono3DVG: 3D Visual Grounding in Monocular Images [12.191320182791483]
外観情報と幾何情報の両方を用いた言語記述を用いた単眼RGB画像における3次元視覚的グラウンドディングの新たなタスクを提案する。
大規模データセット Mono3DRefer を構築し,それに対応する幾何学的テキスト記述を備えた3Dオブジェクトを対象とする。
テキスト埋め込みにおける外観情報と幾何学情報の両方を利用するエンドツーエンドのトランスフォーマーネットワークであるMono3DVG-TRを提案する。
論文 参考訳(メタデータ) (2023-12-13T09:49:59Z) - LucidDreaming: Controllable Object-Centric 3D Generation [10.646855651524387]
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから3次元生成を空間的,数値的に制御できるパイプラインを提案する。
LucidDreamingは、現在のアプローチと比較して、オブジェクトの配置精度と生成精度において優れた結果を得る。
論文 参考訳(メタデータ) (2023-11-30T18:55:23Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation [52.029698642883226]
テキストから3Dへの手法は、強力な事前学習拡散モデルを利用してNeRFを最適化する。
ほとんどの研究は、主観的なケーススタディとユーザ実験で結果を評価している。
最初の総合的なテキスト・ツー・3DベンチマークであるT$3$Benchを紹介する。
論文 参考訳(メタデータ) (2023-10-04T17:12:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。