論文の概要: Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization
- arxiv url: http://arxiv.org/abs/2312.10111v2
- Date: Tue, 9 Jul 2024 10:57:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 00:11:18.097899
- Title: Plasticine3D: 3D Non-Rigid Editing with Text Guidance by Multi-View Embedding Optimization
- Title(参考訳): Plasticine3D:マルチビュー埋め込み最適化によるテキスト誘導による3次元非デジタル編集
- Authors: Yige Chen, Teng Hu, Yizhe Tang, Siyuan Chen, Ang Chen, Ran Yi,
- Abstract要約: 本研究では,3次元非剛性編集が可能なテキスト誘導型3D編集パイプラインであるPlastine3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
細粒度制御のために,埋め込み空間の編集目的と原特徴を融合させるエンベディング・フュージョン (EF) を提案する。
- 参考スコア(独自算出の注目度): 21.8454418337306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the help of Score Distillation Sampling (SDS) and the rapid development of neural 3D representations, some methods have been proposed to perform 3D editing such as adding additional geometries, or overwriting textures. However, generalized 3D non-rigid editing task, which requires changing both the structure (posture or composition) and appearance (texture) of the original object, remains to be challenging in 3D editing field. In this paper, we propose Plasticine3D, a novel text-guided fine-grained controlled 3D editing pipeline that can perform 3D non-rigid editing with large structure deformations. Our work divides the editing process into a geometry editing stage and a texture editing stage to achieve separate control of structure and appearance. In order to maintain the details of the original object from different viewpoints, we propose a Multi-View-Embedding (MVE) Optimization strategy to ensure that the guidance model learns the features of the original object from various viewpoints. For the purpose of fine-grained control, we propose Embedding-Fusion (EF) to blend the original characteristics with the editing objectives in the embedding space, and control the extent of editing by adjusting the fusion rate. Furthermore, in order to address the issue of gradual loss of details during the generation process under high editing intensity, as well as the problem of insignificant editing effects in some scenarios, we propose Score Projection Sampling (SPS) as a replacement of score distillation sampling, which introduces additional optimization phases for editing target enhancement and original detail maintenance, leading to better editing quality. Extensive experiments demonstrate the effectiveness of our method on 3D non-rigid editing tasks
- Abstract(参考訳): SDS(Score Distillation Sampling)とニューラル3D表現の急速な発展により、追加のジオメトリの追加やオーバーライトテクスチャなどの3D編集を行う方法が提案されている。
しかし、元のオブジェクトの構造(姿勢や構成)と外観(テクスチャ)の両方を変更する必要がある一般化された3D非剛性編集タスクは、3D編集領域では難しいままである。
本稿では,3次元非剛性編集を大規模構造変形で行うことができる,テキスト誘導型微粒化3D編集パイプラインであるPlastine 3Dを提案する。
本研究は,編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し,構造と外観を別々に制御する。
異なる視点から元のオブジェクトの詳細を維持するために,誘導モデルが元のオブジェクトの特徴を様々な視点から学習することを保証するために,MVE最適化戦略を提案する。
微粒化制御のために,埋め込み空間における編集目的と原特性を混合し,融合率を調整して編集範囲を制御することを目的としたEmbedding-Fusion(EF)を提案する。
さらに、高い編集強度下での生成過程における詳細の段階的損失問題や、いくつかのシナリオにおいて重要な編集効果の問題に対処するため、スコア抽出サンプリングの代替としてスコア投影サンプリング(SPS)を提案する。
大規模実験による3次元非剛性編集作業における本手法の有効性の実証
関連論文リスト
- ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing [33.42456524414643]
ProEditは、拡散蒸留によって誘導される高品質な3Dシーン編集のためのフレームワークである。
我々のフレームワークはFOSのサイズを制御し、全体的な編集タスクを複数のサブタスクに分解することで一貫性を低下させる。
ProEditは、様々な場面で最先端の結果を達成し、編集作業に挑戦する。
論文 参考訳(メタデータ) (2024-11-07T18:59:54Z) - EditRoom: LLM-parameterized Graph Diffusion for Composable 3D Room Layout Editing [114.14164860467227]
自然言語コマンドで様々なレイアウト編集を実行できるフレームワークであるEdit-Roomを提案する。
特にEditRoomは、コマンドプランニングとターゲットシーンの生成にLarge Language Models(LLM)を利用している。
既存の3Dシーンデータセットを拡張する自動パイプラインを開発し,83kの編集ペアを備えた大規模データセットであるEditRoom-DBを導入した。
論文 参考訳(メタデータ) (2024-10-03T17:42:24Z) - 3D Gaussian Editing with A Single Image [19.662680524312027]
本稿では,3次元ガウシアンスプラッティングをベースとしたワンイメージ駆動の3Dシーン編集手法を提案する。
提案手法は,ユーザが指定した視点から描画した画像の編集版に合わせるために,3次元ガウスを最適化することを学ぶ。
実験により, 幾何学的詳細処理, 長距離変形, 非剛性変形処理における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-14T13:17:42Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Object-aware Inversion and Reassembly for Image Editing [61.19822563737121]
オブジェクトレベルのきめ細かい編集を可能にするために,オブジェクト認識型インバージョンと再アセンブリ(OIR)を提案する。
画像の編集時に各編集ペアに対して最適な反転ステップを見つけるために,検索基準を用いる。
本手法は,オブジェクトの形状,色,材料,カテゴリなどの編集において,特に多目的編集シナリオにおいて優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-18T17:59:02Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - SINE: Semantic-driven Image-based NeRF Editing with Prior-guided Editing
Field [37.8162035179377]
我々は,1つの画像でニューラルラディアンスフィールドを編集できる,新しい意味駆動型NeRF編集手法を提案する。
この目的を達成するために,3次元空間における微細な幾何学的・テクスチャ的編集を符号化する事前誘導編集場を提案する。
本手法は,1枚の編集画像のみを用いた写真リアルな3D編集を実現し,実世界の3Dシーンにおけるセマンティックな編集の限界を押し上げる。
論文 参考訳(メタデータ) (2023-03-23T13:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。