論文の概要: Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.08563v1
- Date: Wed, 13 Dec 2023 23:27:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:33:06.424587
- Title: Efficient-NeRF2NeRF: Streamlining Text-Driven 3D Editing with Multiview
Correspondence-Enhanced Diffusion Models
- Title(参考訳): マルチビュー対応強化拡散モデルによるテキスト駆動3次元編集の効率化
- Authors: Liangchen Song, Liangliang Cao, Jiatao Gu, Yifan Jiang, Junsong Yuan,
Hao Tang
- Abstract要約: 3Dコンテンツ編集の普及を妨げている大きな障害は、その時間集約的な処理である。
共振器の正規化を拡散モデルに組み込むことで,3次元編集のプロセスを大幅に高速化できることを示す。
多くのシナリオにおいて,提案手法はベースライン法と比較して10$times$の高速化を実現し,2分で3Dシーンの編集を完了させる。
- 参考スコア(独自算出の注目度): 83.97844535389073
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of text-driven 3D content editing has been blessed by the
progress from 2D generative diffusion models. However, a major obstacle
hindering the widespread adoption of 3D content editing is its time-intensive
processing. This challenge arises from the iterative and refining steps
required to achieve consistent 3D outputs from 2D image-based generative
models. Recent state-of-the-art methods typically require optimization time
ranging from tens of minutes to several hours to edit a 3D scene using a single
GPU. In this work, we propose that by incorporating correspondence
regularization into diffusion models, the process of 3D editing can be
significantly accelerated. This approach is inspired by the notion that the
estimated samples during diffusion should be multiview-consistent during the
diffusion generation process. By leveraging this multiview consistency, we can
edit 3D content at a much faster speed. In most scenarios, our proposed
technique brings a 10$\times$ speed-up compared to the baseline method and
completes the editing of a 3D scene in 2 minutes with comparable quality.
- Abstract(参考訳): テキスト駆動3dコンテンツ編集の進歩は、2次元生成拡散モデルからの進歩によって祝福されている。
しかし、3Dコンテンツ編集の普及を妨げる大きな障害は、その時間集約的な処理である。
この課題は、2次元画像ベース生成モデルから一貫した3D出力を達成するのに必要な反復的および精製的なステップから生じる。
最近の最先端の手法は通常、単一のgpuを使って3dシーンを編集するのに、数十分から数時間の最適化時間を必要とする。
本研究では,拡散モデルに対応正規化を組み込むことにより,3次元編集のプロセスを大幅に高速化できることを示す。
このアプローチは、拡散中の推定サンプルは拡散生成過程においてマルチビュー一貫性を持つべきであるという考え方に触発されている。
このマルチビューの一貫性を利用することで、3dコンテンツをより高速に編集できるのです。
ほとんどのシナリオにおいて、提案手法はベースライン法と比較して10$\times$のスピードアップをもたらし、同等の品質で2分間で3dシーンの編集を完了する。
関連論文リスト
- DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation [17.930032337081673]
テキスト駆動3D編集作業において, スコア蒸留サンプリング(SDS)が有効なフレームワークとして登場した。
我々は,これらのサンプリングダイナミクスをSDSフレームワークで検討する新しいフレームワークであるDreamCatalystを提案する。
提案手法は,(1)現在最先端のNeRF編集手法の23倍の速さでシーンを編集する高速モード,(2)これらの手法の約8倍の速さで結果を生成する高品質モードの2つのモードを提供する。
論文 参考訳(メタデータ) (2024-07-16T05:26:14Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Generic 3D Diffusion Adapter Using Controlled Multi-View Editing [44.99706994361726]
オープンドメインの3Dオブジェクト合成は、限られたデータと高い計算複雑性のために、画像合成に遅れを取っている。
本稿では,SDEditの3次元版として機能するMVEditを提案する。
MVEditはトレーニング不要の3Dアダプタを通じて3D一貫性を実現し、最後の2Dビューをコヒーレントな3D表現に変換する。
論文 参考訳(メタデータ) (2024-03-18T17:59:09Z) - Real-time 3D-aware Portrait Editing from a Single Image [111.27169315556444]
3DPEは、参照画像やテキスト記述など、与えられたプロンプトに従って顔画像を編集することができる。
軽量モジュールは、3Dポートレートジェネレータとテキスト・ツー・イメージ・モデルから蒸留される。
論文 参考訳(メタデータ) (2024-02-21T18:36:26Z) - Instant3D: Fast Text-to-3D with Sparse-View Generation and Large
Reconstruction Model [68.98311213582949]
テキストプロンプトから高品質で多様な3Dアセットをフィードフォワードで生成する新しい手法であるInstant3Dを提案する。
提案手法は,従来の最適化手法よりも2桁早く,20秒以内に高画質の多種多様な3Dアセットを生成できる。
論文 参考訳(メタデータ) (2023-11-10T18:03:44Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。