論文の概要: GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting
- arxiv url: http://arxiv.org/abs/2405.07472v1
- Date: Mon, 13 May 2024 05:18:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 14:44:50.802104
- Title: GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting
- Title(参考訳): GaussianVTON:画像プロンプトによる多段ガウス切削による3次元バーチャルトライ-ON
- Authors: Haodong Chen, Yongle Huang, Haojian Huang, Xiangsheng Ge, Dian Shao,
- Abstract要約: 電子商取引はバーチャルトライオン(VTON)の重要性を強調している
3D VTONの研究は、主に衣服体形状の整合性に焦点を当てている。
3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。
- 参考スコア(独自算出の注目度): 2.2975420753582028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing prominence of e-commerce has underscored the importance of Virtual Try-On (VTON). However, previous studies predominantly focus on the 2D realm and rely heavily on extensive data for training. Research on 3D VTON primarily centers on garment-body shape compatibility, a topic extensively covered in 2D VTON. Thanks to advances in 3D scene editing, a 2D diffusion model has now been adapted for 3D editing via multi-viewpoint editing. In this work, we propose GaussianVTON, an innovative 3D VTON pipeline integrating Gaussian Splatting (GS) editing with 2D VTON. To facilitate a seamless transition from 2D to 3D VTON, we propose, for the first time, the use of only images as editing prompts for 3D editing. To further address issues, e.g., face blurring, garment inaccuracy, and degraded viewpoint quality during editing, we devise a three-stage refinement strategy to gradually mitigate potential issues. Furthermore, we introduce a new editing strategy termed Edit Recall Reconstruction (ERR) to tackle the limitations of previous editing strategies in leading to complex geometric changes. Our comprehensive experiments demonstrate the superiority of GaussianVTON, offering a novel perspective on 3D VTON while also establishing a novel starting point for image-prompting 3D scene editing.
- Abstract(参考訳): 電子商取引の普及により、バーチャルトライオン(VTON)の重要性が強調されている。
しかし、以前の研究では主に2D領域に焦点をあて、訓練のための広範なデータに大きく依存していた。
3次元VTONの研究は、主に2次元VTONで広く取り上げられる衣服体形状の整合性に焦点を当てている。
3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。
本稿では,2次元VTONでGaussian Splatting(GS)編集を統合する革新的な3次元VTONパイプラインであるGaussianVTONを提案する。
2次元VTONから3次元VTONへのシームレスな遷移を容易にするため,画像のみを3次元編集のための編集プロンプトとして用いることを提案する。
さらに, 顔のぼやけ, 衣服の不正確さ, 編集中の視点品質の低下といった問題に対処するため, 潜在的な問題を段階的に緩和する3段階改良戦略を考案した。
さらに,編集リコール再構成(ERR)と呼ばれる新しい編集戦略を導入し,従来の編集戦略の限界に対処し,複雑な幾何学的変化をもたらす。
我々の総合実験はガウスVTONの優位性を実証し、3DVTONの新たな視点を提供するとともに、3Dシーン編集の新たな出発点を確立した。
関連論文リスト
- ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing [43.57569035470579]
ConsistDreamerは、3D認識と3D一貫性を備えた2D拡散モデルを持ち上げるフレームワークである。
本稿では,2次元拡散モデルの入力を3次元対応に増強する3つの相乗戦略を提案する。
また、シーンごとの編集手順の中で、自己教師付き一貫性強化トレーニングを導入する。
論文 参考訳(メタデータ) (2024-06-13T17:59:32Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題を解決するための確立されたパラダイムは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
これは、神経放射場のような計算コストのかかる3D表現を更新する必要があるため、しばしば遅くなる。
そこで我々は,これらの問題に2つの方法で対処する手法であるDirect Gaussian Editor (DGE)を導入する。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
画像編集プロセスに3DGSをシームレスに組み込む新しいフレームワークであるView-Consistent Editing (VcEdit)を導入する。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Plasticine3D: Non-rigid 3D editting with text guidance [24.75903764018142]
プラスチック3Dは、汎用的で、高忠実で、フォトリアリスティックで、制御可能な非剛性編集パイプラインである。
本研究は, 編集過程を幾何学的編集段階とテクスチャ的編集段階に分割し, より詳細な, フォトリアリスティックな結果を得る。
論文 参考訳(メタデータ) (2023-12-15T09:01:54Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。