論文の概要: ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing
- arxiv url: http://arxiv.org/abs/2406.09404v1
- Date: Thu, 13 Jun 2024 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 15:56:26.677413
- Title: ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing
- Title(参考訳): ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing (特集:3D-Consistent)
- Authors: Jun-Kun Chen, Samuel Rota Bulò, Norman Müller, Lorenzo Porzi, Peter Kontschieder, Yu-Xiong Wang,
- Abstract要約: ConsistDreamerは、3D認識と3D一貫性を備えた2D拡散モデルを持ち上げるフレームワークである。
本稿では,2次元拡散モデルの入力を3次元対応に増強する3つの相乗戦略を提案する。
また、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
- 参考スコア(独自算出の注目度): 43.57569035470579
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes ConsistDreamer - a novel framework that lifts 2D diffusion models with 3D awareness and 3D consistency, thus enabling high-fidelity instruction-guided scene editing. To overcome the fundamental limitation of missing 3D consistency in 2D diffusion models, our key insight is to introduce three synergetic strategies that augment the input of the 2D diffusion model to become 3D-aware and to explicitly enforce 3D consistency during the training process. Specifically, we design surrounding views as context-rich input for the 2D diffusion model, and generate 3D-consistent, structured noise instead of image-independent noise. Moreover, we introduce self-supervised consistency-enforcing training within the per-scene editing procedure. Extensive evaluation shows that our ConsistDreamer achieves state-of-the-art performance for instruction-guided scene editing across various scenes and editing instructions, particularly in complicated large-scale indoor scenes from ScanNet++, with significantly improved sharpness and fine-grained textures. Notably, ConsistDreamer stands as the first work capable of successfully editing complex (e.g., plaid/checkered) patterns. Our project page is at immortalco.github.io/ConsistDreamer.
- Abstract(参考訳): 本稿では,3次元認識と3次元整合性を備えた2次元拡散モデルを実現する新しいフレームワークであるConsistDreamerを提案する。
2次元拡散モデルにおける3次元の整合性の欠如の根本的な限界を克服するために、我々の重要な洞察は、2次元拡散モデルの入力を3次元認識に拡張し、トレーニングプロセス中に3次元の整合性を明確に強制する3つの相乗的戦略を導入することである。
具体的には、2次元拡散モデルに対して周囲のビューをコンテキストリッチな入力として設計し、画像に依存しないノイズの代わりに3次元一貫性のある構造ノイズを生成する。
さらに、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
広範に評価した結果,ScanNet++の複雑な屋内シーンにおいて,様々なシーンにわたる指導誘導シーンの編集や編集指導の最先端性能を実現し,シャープさやきめ細かなテクスチャを著しく改善した。
特にConsistDreamerは、複雑なパターン(例えば、格子/チェッカー)をうまく編集できる最初の作品である。
プロジェクトページはImmortalco.github.io/ConsistDreamerにあります。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion [30.331519274430594]
命令4D-to-4Dは、高品質な命令誘導動的シーン編集結果を生成する。
我々は、4Dシーンを擬似3Dシーンとして扱い、ビデオ編集における時間的一貫性を実現し、擬似3Dシーンに適用する2つのサブプロブレムに分解する。
様々な場面でのアプローチと編集指示を幅広く評価し,空間的・時間的に一貫した編集結果が得られることを示した。
論文 参考訳(メタデータ) (2024-06-13T17:59:30Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - X-Dreamer: Creating High-quality 3D Content by Bridging the Domain Gap Between Text-to-2D and Text-to-3D Generation [61.48050470095969]
X-Dreamerは高品質なテキストから3Dコンテンツを作成するための新しいアプローチである。
テキスト対2D合成とテキスト対3D合成のギャップを埋める。
論文 参考訳(メタデータ) (2023-11-30T07:23:00Z) - DreamCraft3D: Hierarchical 3D Generation with Bootstrapped Diffusion
Prior [40.67100127167502]
本稿では,高忠実でコヒーレントな3Dオブジェクトを生成する階層型3Dコンテンツ生成手法であるDreamCraft3Dを提案する。
幾何学的彫刻とテクスチャ強化の段階をガイドするために, 2次元参照画像を活用することで, この問題に対処する。
階層的な世代を通して調整された3Dプリエントにより、DreamCraft3Dはフォトリアリスティックなレンダリングを備えたコヒーレントな3Dオブジェクトを生成する。
論文 参考訳(メタデータ) (2023-10-25T17:50:10Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - RenderDiffusion: Image Diffusion for 3D Reconstruction, Inpainting and
Generation [68.06991943974195]
単分子2次元観察のみを用いて学習した3次元生成と推論のための最初の拡散モデルであるRenderDiffusionを提案する。
FFHQ,AFHQ,ShapeNet,CLEVRのデータセット上でRenderDiffusionを評価し,3Dシーンの生成と2D画像からの3Dシーンの推測の競合性能を示した。
論文 参考訳(メタデータ) (2022-11-17T20:17:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。