Fugu-MT 論文翻訳(概要): MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation

論文の概要: MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation

arxiv url: http://arxiv.org/abs/2311.14494v2
Date: Mon, 27 Nov 2023 12:39:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 09:46:48.606748
Title: MVControl: Adding Conditional Control to Multi-view Diffusion for Controllable Text-to-3D Generation
Title（参考訳）: MVControl:制御可能なテキストから3D生成のための多視点拡散への条件制御の追加
Authors: Zhiqi Li, Yiming Chen, Lingzhe Zhao, Peidong Liu
Abstract要約: 既存のトレーニング済みマルチビュー2D拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを紹介する。提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。
参考スコア（独自算出の注目度）: 10.250715657201363
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce MVControl, a novel neural network architecture that enhances existing pre-trained multi-view 2D diffusion models by incorporating additional input conditions, e.g. edge maps. Our approach enables the generation of controllable multi-view images and view-consistent 3D content. To achieve controllable multi-view image generation, we leverage MVDream as our base model, and train a new neural network module as additional plugin for end-to-end task-specific condition learning. To precisely control the shapes and views of generated images, we innovatively propose a new conditioning mechanism that predicts an embedding encapsulating the input spatial and view conditions, which is then injected to the network globally. Once MVControl is trained, score-distillation (SDS) loss based optimization can be performed to generate 3D content, in which process we propose to use a hybrid diffusion prior. The hybrid prior relies on a pre-trained Stable-Diffusion network and our trained MVControl for additional guidance. Extensive experiments demonstrate that our method achieves robust generalization and enables the controllable generation of high-quality 3D content. Code available at https://github.com/WU-CVGL/MVControl/.
Abstract（参考訳）: エッジマップなどの入力条件を付加することにより、既存のトレーニング済みのマルチビュー2次元拡散モデルを強化するニューラルネットワークアーキテクチャであるMVControlを導入する。提案手法により,制御可能なマルチビュー画像と3Dコンテンツの生成が可能となる。制御可能なマルチビュー画像生成を実現するために、MVDreamをベースモデルとして利用し、エンドツーエンドのタスク固有条件学習のための追加プラグインとして新しいニューラルネットワークモジュールをトレーニングする。生成した画像の形状とビューを正確に制御するために,入力空間とビュー条件をカプセル化した埋め込みを予測する新しい条件付け機構を革新的に提案し,それをグローバルにネットワークに注入する。 MVControlをトレーニングすると,3次元コンテンツを生成するためにスコア蒸留(SDS)損失に基づく最適化を行うことができる。従来はトレーニング済みの安定拡散ネットワークと,トレーニング済みのMVControlを参考にしています。大規模な実験により,本手法は堅牢な一般化を実現し,高品質な3Dコンテンツの制御可能な生成を可能にした。コードはhttps://github.com/wu-cvgl/mvcontrol/。

関連論文リスト

MVRoom: Controllable 3D Indoor Scene Generation with Multi-View Diffusion Models [40.57348732287596]
室内3次元シーンのための制御可能なノベルビュー合成(NVS)パイプラインであるMVRoomを紹介する。 MVRoomは2段階の設計を採用し、3Dレイアウトを多視点整合性を強制するために使用した。
論文参考訳（メタデータ） (2025-12-03T20:33:18Z)
BlobGEN-Vid: Compositional Text-to-Video Generation with Blob Video Representations [82.94002870060045]
既存のビデオ生成モデルは、複雑なテキストプロンプトに従い、複数のオブジェクトを合成するのに苦労する。我々は,BlobGEN-Vidというブロブグラウンドビデオ拡散モデルを開発し,ユーザがオブジェクトの動きを制御し,細かいオブジェクトの外観を制御できるようにする。 U-NetとDiTをベースとした動画拡散モデルに基づいてBlobGEN-Vidを構築する。
論文参考訳（メタデータ） (2025-01-13T19:17:06Z)
MVGenMaster: Scaling Multi-View Generation from Any Image via 3D Priors Enhanced Diffusion Model [87.71060849866093]
MVGenMasterは3Dプリエントで拡張された多視点拡散モデルであり,NVS(多目的なノベルビュー合成)タスクに対処する。我々のモデルは、可変参照ビューとカメラポーズで条件付けられた100の新しいビューを生成できる、シンプルで効果的なパイプラインを特徴としている。スケールアップデータセットを用いてモデルを強化するために,いくつかのトレーニングとモデル修正を提案する。
論文参考訳（メタデータ） (2024-11-25T07:34:23Z)
EasyControl: Transfer ControlNet to Video Diffusion for Controllable Generation and Interpolation [73.80275802696815]
本稿では、ビデオ生成のためのEasyControlというユニバーサルフレームワークを提案する。提案手法により,ユーザーは単一の条件マップで映像生成を制御できる。その結果,UCF101とMSR-VTTのFVDおよびISが向上した。
論文参考訳（メタデータ） (2024-08-23T11:48:29Z)
VD3D: Taming Large Video Diffusion Transformers for 3D Camera Control [74.5434726968562]
Plucker座標に基づく制御ネットライクなコンディショニング機構を用いた3次元カメラ制御のためのトランスフォーマー映像を試作する。我々の研究は、トランスフォーマーに基づくビデオ拡散モデルのカメラ制御を可能にする最初のものである。
論文参考訳（メタデータ） (2024-07-17T17:59:05Z)
Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文参考訳（メタデータ） (2024-05-13T17:56:13Z)
Controllable Text-to-3D Generation via Surface-Aligned Gaussian Splatting [9.383423119196408]
本稿では,既存の多視点拡散モデルを強化するために設計されたニューラルネットワークアーキテクチャであるMulti-view ControlNet(MVControl)を紹介する。 MVControlは最適化ベースの3D生成のための3D拡散ガイダンスを提供することができる。効率性を追求するために、一般的に使用される暗黙の表現の代わりに、3Dガウスを表現として採用する。
論文参考訳（メタデータ） (2024-03-15T02:57:20Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Zero123++: a Single Image to Consistent Multi-view Diffusion Base Model [30.44339780026541]
Zero123++は、単一の入力ビューから3D一貫性のあるマルチビュー画像を生成するための画像条件拡散モデルである。我々は,市販画像拡散モデルからの微調整の労力を最小限に抑えるために,様々な条件付けと訓練手法を開発した。
論文参考訳（メタデータ） (2023-10-23T17:18:59Z)
Towards a Neural Graphics Pipeline for Controllable Image Generation [96.11791992084551]
ニューラルグラフパイプライン(NGP)は,ニューラルネットワークと従来の画像形成モデルを組み合わせたハイブリッド生成モデルである。 NGPは、画像を解釈可能な外観特徴マップの集合に分解し、制御可能な画像生成のための直接制御ハンドルを明らかにする。単目的シーンの制御可能な画像生成におけるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-06-18T14:22:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。