論文の概要: MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation
- arxiv url: http://arxiv.org/abs/2311.14494v2
- Date: Mon, 27 Nov 2023 12:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 09:46:48.606748
- Title: MVControl: Adding Conditional Control to Multi-view Diffusion for
Controllable Text-to-3D Generation
- Title(参考訳): MVControl:制御可能なテキストから3D生成のための多視点拡散への条件制御の追加
- Authors: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
- Abstract要約: 既存のトレーニング済みマルチビュー2D拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを紹介する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
- 参考スコア(独自算出の注目度): 10.250715657201363
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MVControl, a novel neural network architecture that enhances
existing pre-trained multi-view 2D diffusion models by incorporating additional
input conditions, e.g. edge maps. Our approach enables the generation of
controllable multi-view images and view-consistent 3D content. To achieve
controllable multi-view image generation, we leverage MVDream as our base
model, and train a new neural network module as additional plugin for
end-to-end task-specific condition learning. To precisely control the shapes
and views of generated images, we innovatively propose a new conditioning
mechanism that predicts an embedding encapsulating the input spatial and view
conditions, which is then injected to the network globally. Once MVControl is
trained, score-distillation (SDS) loss based optimization can be performed to
generate 3D content, in which process we propose to use a hybrid diffusion
prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and
our trained MVControl for additional guidance. Extensive experiments
demonstrate that our method achieves robust generalization and enables the
controllable generation of high-quality 3D content. Code available at
https://github.com/WU-CVGL/MVControl/.
- Abstract(参考訳): エッジマップなどの入力条件を付加することにより、既存のトレーニング済みのマルチビュー2次元拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを導入する。
提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
制御可能なマルチビュー画像生成を実現するために、MVDreamをベースモデルとして利用し、エンドツーエンドのタスク固有条件学習のための追加プラグインとして新しいニューラルネットワークモジュールをトレーニングする。
生成した画像の形状とビューを正確に制御するために,入力空間とビュー条件をカプセル化した埋め込みを予測する新しい条件付け機構を革新的に提案し,それをグローバルにネットワークに注入する。
MVControlをトレーニングすると,3次元コンテンツを生成するためにスコア蒸留(SDS)損失に基づく最適化を行うことができる。
従来はトレーニング済みの安定拡散ネットワークと,トレーニング済みのMVControlを参考にしています。
大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。
コードはhttps://github.com/wu-cvgl/mvcontrol/。
関連論文リスト
- Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。
MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。
効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文 参考訳(メタデータ) (2024-03-15T02:57:20Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。
我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文 参考訳(メタデータ) (2023-10-23T17:18:59Z) - Uni-ControlNet: All-in-One Control to Text-to-Image Diffusion Models [82.19740045010435]
ローカルコントロールとグローバルコントロールの同時利用を可能にする統合フレームワークであるUni-ControlNetを紹介した。
既存の方法とは異なり、Uni-ControlNetは、凍結した事前訓練されたテキスト-画像拡散モデル上に2つのアダプタを微調整するだけでよい。
Uni-ControlNetは、制御性、生成品質、構成性の観点から、既存のメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:58Z) - UniControl: A Unified Diffusion Model for Controllable Visual Generation
In the Wild [166.25327094261038]
制御可能なコンディション・トゥ・イメージ(C2I)タスクのための新しい生成基盤モデルUniControlを紹介する。
UniControlは、任意の言語プロンプトを許容しながら、特定のフレームワーク内で幅広いC2Iタスクを統合する。
9つのユニークなC2Iタスクで訓練されたUniControlは、印象的なゼロショット生成能力を誇示している。
論文 参考訳(メタデータ) (2023-05-18T17:41:34Z) - Adding Conditional Control to Text-to-Image Diffusion Models [37.98427255384245]
大規模で事前訓練されたテキスト-画像拡散モデルに空間条件制御を追加するニューラルネットワークアーキテクチャであるControlNetを提案する。
ControlNetはプロダクション対応の大規模な拡散モデルをロックし、数十億のイメージで事前訓練されたディープで堅牢なエンコーディング層を強力なバックボーンとして再利用して、さまざまな条件付きコントロールを学ぶ。
論文 参考訳(メタデータ) (2023-02-10T23:12:37Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [71.48667086232618]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - MVTN: Multi-View Transformation Network for 3D Shape Recognition [80.34385402179852]
本稿では,3次元形状認識のための最適視点を回帰するマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状分類のためのマルチビューネットワークと共に、エンドツーエンドで訓練することができる。
MVTNは3次元形状分類と3次元形状検索のタスクにおいて、余分な訓練監督を必要とせず、明らかな性能向上を示す。
論文 参考訳(メタデータ) (2020-11-26T11:33:53Z) - Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。
NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。
単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T14:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。