論文の概要: MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.14494v1
- Date: Fri, 24 Nov 2023 14:07:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:00:12.498007
- Title: MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation
- Title(参考訳): MVControl:制御可能なテキストから3D生成のための多視点拡散への条件制御の追加
- Authors: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
- Abstract要約: 既存のトレーニング済みマルチビュー2D拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを紹介する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
- 参考スコア(独自算出の注目度): 10.250715657201363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MVControl, a novel neural network architecture that enhances
existing pre-trained multi-view 2D diffusion models by incorporating additional
input conditions, e.g. edge maps. Our approach enables the generation of
controllable multi-view images and view-consistent 3D content. To achieve
controllable multi-view image generation, we leverage MVDream as our base
model, and train a new neural network module as additional plugin for
end-to-end task-specific condition learning. To precisely control the shapes
and views of generated images, we innovatively propose a new conditioning
mechanism that predicts an embedding encapsulating the input spatial and view
conditions, which is then injected to the network globally. Once MVControl is
trained, score-distillation (SDS) loss based optimization can be performed to
generate 3D content, in which process we propose to use a hybrid diffusion
prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and
our trained MVControl for additional guidance. Extensive experiments
demonstrate that our method achieves robust generalization and enables the
controllable generation of high-quality 3D content.
- Abstract(参考訳): エッジマップなどの入力条件を付加することにより、既存のトレーニング済みのマルチビュー2次元拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを導入する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
制御可能なマルチビュー画像生成を実現するために、MVDreamをベースモデルとして利用し、エンドツーエンドのタスク固有条件学習のための追加プラグインとして新しいニューラルネットワークモジュールをトレーニングする。
生成した画像の形状とビューを正確に制御するために,入力空間とビュー条件をカプセル化した埋め込みを予測する新しい条件付け機構を革新的に提案し,それをグローバルにネットワークに注入する。
MVControlをトレーニングすると,3次元コンテンツを生成するためにスコア蒸留(SDS)損失に基づく最適化を行うことができる。
従来はトレーニング済みの安定拡散ネットワークと,トレーニング済みのMVControlを参考にしています。
大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。
関連論文リスト
- MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。
我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。
スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文 参考訳(メタデータ) (2024-11-25T07:34:23Z) - EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。
提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。
その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文 参考訳(メタデータ) (2024-08-23T11:48:29Z) - VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。
我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文 参考訳(メタデータ) (2024-07-17T17:59:05Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T17:18:59Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。