論文の概要: SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing
- arxiv url: http://arxiv.org/abs/2406.17396v1
- Date: Tue, 25 Jun 2024 09:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-26 15:01:42.291085
- Title: SyncNoise: Geometrically Consistent Noise Prediction for Text-based 3D Scene Editing
- Title(参考訳): SyncNoise:テキストベースの3Dシーン編集のための幾何学的に一貫性のあるノイズ予測
- Authors: Ruihuang Li, Liyi Chen, Zhengqiang Zhang, Varun Jampani, Vishal M. Patel, Lei Zhang,
- Abstract要約: 高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、幾何的に一貫した多視点ノイズ予測を行う。
本手法は,特に複雑なテクスチャを持つシーンにおいて,テキストの指示に配慮した高品質な3D編集結果を実現する。
- 参考スコア(独自算出の注目度): 58.22339174221563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based 2D diffusion models have demonstrated impressive capabilities in image generation and editing. Meanwhile, the 2D diffusion models also exhibit substantial potentials for 3D editing tasks. However, how to achieve consistent edits across multiple viewpoints remains a challenge. While the iterative dataset update method is capable of achieving global consistency, it suffers from slow convergence and over-smoothed textures. We propose SyncNoise, a novel geometry-guided multi-view consistent noise editing approach for high-fidelity 3D scene editing. SyncNoise synchronously edits multiple views with 2D diffusion models while enforcing multi-view noise predictions to be geometrically consistent, which ensures global consistency in both semantic structure and low-frequency appearance. To further enhance local consistency in high-frequency details, we set a group of anchor views and propagate them to their neighboring frames through cross-view reprojection. To improve the reliability of multi-view correspondences, we introduce depth supervision during training to enhance the reconstruction of precise geometries. Our method achieves high-quality 3D editing results respecting the textual instructions, especially in scenes with complex textures, by enhancing geometric consistency at the noise and pixel levels.
- Abstract(参考訳): テキストベースの2次元拡散モデルは、画像生成と編集において印象的な能力を示した。
一方、2D拡散モデルでは、3D編集タスクにも大きな可能性を秘めている。
しかし、複数の視点で一貫した編集を実現する方法は依然として課題である。
反復的データセット更新法は、グローバルな一貫性を達成することができるが、収束が遅く、過度に滑らかなテクスチャに悩まされる。
高忠実度3Dシーン編集のための新しい幾何誘導型マルチビュー一貫したノイズ編集手法SyncNoiseを提案する。
SyncNoiseは2次元拡散モデルで複数のビューを同期的に編集し、多視点ノイズ予測を幾何的に一貫させ、セマンティック構造と低周波外観の両方で大域的な一貫性を確保する。
高周波の細部における局所的な一貫性をさらに高めるため、我々はアンカービューのグループを設定し、それらをクロスビュー・リジェクションを通じて近隣のフレームに伝播させた。
マルチビュー対応の信頼性を向上させるため,訓練中の深度監視を導入し,精密な測地線を復元する。
本手法は,特に複雑なテクスチャを持つシーンにおいて,ノイズや画素レベルの幾何的整合性を高めることにより,テキストの指示に配慮した高品質な3D編集結果を実現する。
関連論文リスト
- 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - VCD-Texture: Variance Alignment based 3D-2D Co-Denoising for Text-Guided Texturing [22.39760469467524]
本研究では,2次元拡散モデルと3次元拡散モデルの間のモーダルギャップに対処する分散テクスチャ合成を提案する。
我々は、競合する領域との詳細な関係を改善するために、塗装モジュールを提示する。
論文 参考訳(メタデータ) (2024-07-05T12:11:33Z) - Generic 3D Diffusion Adapter Using Controlled Multi-View Editing [44.99706994361726]
オープンドメインの3Dオブジェクト合成は、限られたデータと高い計算複雑性のために、画像合成に遅れを取っている。
本稿では,SDEditの3次元版として機能するMVEditを提案する。
MVEditはトレーニング不要の3Dアダプタを通じて3D一貫性を実現し、最後の2Dビューをコヒーレントな3D表現に変換する。
論文 参考訳(メタデータ) (2024-03-18T17:59:09Z) - Consolidating Attention Features for Multi-view Image Editing [126.19731971010475]
本研究では,空間制御に基づく幾何学的操作に着目し,様々な視点にまたがって編集プロセスを統合する手法を提案する。
編集画像の内部クエリ機能に基づいて訓練されたニューラルラジアンス場QNeRFを紹介する。
拡散時間の経過とともにクエリをよりよく統合する、プログレッシブで反復的な手法により、プロセスを洗練します。
論文 参考訳(メタデータ) (2024-02-22T18:50:18Z) - FED-NeRF: Achieve High 3D Consistency and Temporal Coherence for Face
Video Editing on Dynamic NeRF [77.94545888842883]
本稿では,動的顔GAN-NeRF構造上に構築された新しい顔ビデオ編集アーキテクチャを提案する。
潜在コードの編集により、マルチビューステレオ再構成によって検証されるように、顔上でのマルチビュー一貫した編集を確実にすることができる。
本研究では,連続フレームにおける表情のスムーズな変化を保存し,時間的コヒーレンスを維持する安定化器を提案する。
論文 参考訳(メタデータ) (2024-01-05T03:23:38Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z) - StyleNeRF: A Style-based 3D-Aware Generator for High-resolution Image
Synthesis [92.25145204543904]
StyleNeRFは高解像度画像合成のための3次元認識型生成モデルである。
ニューラル放射場(NeRF)をスタイルベースジェネレータに統合する。
高品質な3D一貫性を維持しながら、対話的な速度で高解像度画像を合成することができる。
論文 参考訳(メタデータ) (2021-10-18T02:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。