論文の概要: Preserving Identity with Variational Score for General-purpose 3D Editing
- arxiv url: http://arxiv.org/abs/2406.08953v1
- Date: Thu, 13 Jun 2024 09:32:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-14 18:34:37.198768
- Title: Preserving Identity with Variational Score for General-purpose 3D Editing
- Title(参考訳): 汎用3D編集のための変分スコアによるアイデンティティの保存
- Authors: Duong H. Le, Tuan Pham, Aniruddha Kembhavi, Stephan Mandt, Wei-Chiu Ma, Jiasen Lu,
- Abstract要約: Pivaは拡散モデルに基づいて画像や3Dモデルを編集する新しい最適化手法である。
我々は2Dと3Dの編集の限界を指摘し、細かな損失と過飽和を引き起こす。
恒常保存を強制する追加のスコア蒸留項を提案する。
- 参考スコア(独自算出の注目度): 48.314327790451856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Piva (Preserving Identity with Variational Score Distillation), a novel optimization-based method for editing images and 3D models based on diffusion models. Specifically, our approach is inspired by the recently proposed method for 2D image editing - Delta Denoising Score (DDS). We pinpoint the limitations in DDS for 2D and 3D editing, which causes detail loss and over-saturation. To address this, we propose an additional score distillation term that enforces identity preservation. This results in a more stable editing process, gradually optimizing NeRF models to match target prompts while retaining crucial input characteristics. We demonstrate the effectiveness of our approach in zero-shot image and neural field editing. Our method successfully alters visual attributes, adds both subtle and substantial structural elements, translates shapes, and achieves competitive results on standard 2D and 3D editing benchmarks. Additionally, our method imposes no constraints like masking or pre-training, making it compatible with a wide range of pre-trained diffusion models. This allows for versatile editing without needing neural field-to-mesh conversion, offering a more user-friendly experience.
- Abstract(参考訳): 本稿では,拡散モデルに基づく画像や3次元モデルを編集する新しい最適化手法であるPivaについて述べる。
具体的には,最近提案された2次元画像編集手法であるDelta Denoising Score (DDS)に着想を得た。
2次元および3次元の編集におけるDDSの限界を指摘し、細かな損失と過飽和を引き起こす。
そこで本稿では,ID保存を強制する追加のスコア蒸留項を提案する。
これにより、より安定した編集プロセスが実現し、重要な入力特性を維持しながら、ターゲットプロンプトにマッチするようにNeRFモデルを徐々に最適化する。
ゼロショット画像とニューラルフィールド編集におけるアプローチの有効性を実証する。
提案手法は,視覚特性の変化,微妙かつ実質的な要素の追加,形状の変換,標準2次元および3次元の編集ベンチマークにおける競合的な結果の獲得に成功している。
さらに,本手法はマスクや事前学習などの制約を課さず,広範囲の事前学習拡散モデルと互換性がある。
これにより、ニューラルフィールドからメッシュへの変換を必要とせず、よりユーザフレンドリなエクスペリエンスを提供する、汎用的な編集が可能になる。
関連論文リスト
- Stable Flow: Vital Layers for Training-Free Image Editing [74.52248787189302]
拡散モデルはコンテンツ合成と編集の分野に革命をもたらした。
最近のモデルでは、従来のUNetアーキテクチャをDiffusion Transformer (DiT)に置き換えている。
画像形成に欠かせないDiT内の「硝子層」を自動同定する手法を提案する。
次に、実画像編集を可能にするために、フローモデルのための改良された画像反転手法を提案する。
論文 参考訳(メタデータ) (2024-11-21T18:59:51Z) - 3D Gaussian Editing with A Single Image [19.662680524312027]
本稿では,3次元ガウシアンスプラッティングをベースとしたワンイメージ駆動の3Dシーン編集手法を提案する。
提案手法は,ユーザが指定した視点から描画した画像の編集版に合わせるために,3次元ガウスを最適化することを学ぶ。
実験により, 幾何学的詳細処理, 長距離変形, 非剛性変形処理における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-14T13:17:42Z) - DreamCatalyst: Fast and High-Quality 3D Editing via Controlling Editability and Identity Preservation [17.930032337081673]
テキスト駆動3D編集作業において, スコア蒸留サンプリング(SDS)が有効なフレームワークとして登場した。
我々は,これらのサンプリングダイナミクスをSDSフレームワークで検討する新しいフレームワークであるDreamCatalystを提案する。
提案手法は,(1)現在最先端のNeRF編集手法の23倍の速さでシーンを編集する高速モード,(2)これらの手法の約8倍の速さで結果を生成する高品質モードの2つのモードを提供する。
論文 参考訳(メタデータ) (2024-07-16T05:26:14Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - Contrastive Denoising Score for Text-guided Latent Diffusion Image Editing [58.48890547818074]
潜在拡散モデル(LDM)に対するコントラストデノナイジングスコア(CUT)の強力な修正を提案する。
提案手法により,ゼロショット画像から画像への変換とニューラルフィールド(NeRF)の編集が可能となり,入力と出力の間の構造的対応が達成される。
論文 参考訳(メタデータ) (2023-11-30T15:06:10Z) - ED-NeRF: Efficient Text-Guided Editing of 3D Scene with Latent Space NeRF [60.47731445033151]
ED-NeRFと呼ばれる新しい3次元NeRF編集手法を提案する。
現実のシーンを、ユニークな精細化層を通して、潜時拡散モデル(LDM)の潜時空間に埋め込む。
このアプローチにより、より高速であるだけでなく、より編集しやすいNeRFバックボーンが得られる。
論文 参考訳(メタデータ) (2023-10-04T10:28:38Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - In-N-Out: Faithful 3D GAN Inversion with Volumetric Decomposition for Face Editing [28.790900756506833]
3D対応のGANは、2D対応の編集機能を保ちながら、ビュー合成のための新しい機能を提供する。
GANインバージョンは、入力画像や動画を再構成する潜時コードを求める重要なステップであり、この潜時コードを操作することで様々な編集タスクを可能にする。
我々は3次元GANの入力からOODオブジェクトを明示的にモデル化することでこの問題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。