論文の概要: GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting
- arxiv url: http://arxiv.org/abs/2405.07472v2
- Date: Thu, 23 May 2024 07:54:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-25 05:01:27.311041
- Title: GaussianVTON: 3D Human Virtual Try-ON via Multi-Stage Gaussian Splatting Editing with Image Prompting
- Title(参考訳): GaussianVTON:画像プロンプトによる多段ガウス切削による3次元バーチャルトライ-ON
- Authors: Haodong Chen, Yongle Huang, Haojian Huang, Xiangsheng Ge, Dian Shao,
- Abstract要約: 電子商取引はバーチャルトライオン(VTON)の重要性を強調している
3D VTONの研究は、主に衣服体形状の整合性に焦点を当てている。
3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。
- 参考スコア(独自算出の注目度): 2.2975420753582028
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The increasing prominence of e-commerce has underscored the importance of Virtual Try-On (VTON). However, previous studies predominantly focus on the 2D realm and rely heavily on extensive data for training. Research on 3D VTON primarily centers on garment-body shape compatibility, a topic extensively covered in 2D VTON. Thanks to advances in 3D scene editing, a 2D diffusion model has now been adapted for 3D editing via multi-viewpoint editing. In this work, we propose GaussianVTON, an innovative 3D VTON pipeline integrating Gaussian Splatting (GS) editing with 2D VTON. To facilitate a seamless transition from 2D to 3D VTON, we propose, for the first time, the use of only images as editing prompts for 3D editing. To further address issues, e.g., face blurring, garment inaccuracy, and degraded viewpoint quality during editing, we devise a three-stage refinement strategy to gradually mitigate potential issues. Furthermore, we introduce a new editing strategy termed Edit Recall Reconstruction (ERR) to tackle the limitations of previous editing strategies in leading to complex geometric changes. Our comprehensive experiments demonstrate the superiority of GaussianVTON, offering a novel perspective on 3D VTON while also establishing a novel starting point for image-prompting 3D scene editing.
- Abstract(参考訳): 電子商取引の普及により、バーチャルトライオン(VTON)の重要性が強調されている。
しかし、以前の研究では主に2D領域に焦点をあて、訓練のための広範なデータに大きく依存していた。
3次元VTONの研究は、主に2次元VTONで広く取り上げられる衣服体形状の整合性に焦点を当てている。
3Dシーン編集の進歩により、多視点編集による3D編集に2D拡散モデルが適用された。
本稿では,2次元VTONでGaussian Splatting(GS)編集を統合する革新的な3次元VTONパイプラインであるGaussianVTONを提案する。
2次元VTONから3次元VTONへのシームレスな遷移を容易にするため,画像のみを3次元編集のための編集プロンプトとして用いることを提案する。
さらに, 顔のぼやけ, 衣服の不正確さ, 編集中の視点品質の低下といった問題に対処するため, 潜在的な問題を段階的に緩和する3段階改良戦略を考案した。
さらに,編集リコール再構成(ERR)と呼ばれる新しい編集戦略を導入し,従来の編集戦略の限界に対処し,複雑な幾何学的変化をもたらす。
我々の総合実験はガウスVTONの優位性を実証し、3DVTONの新たな視点を提供するとともに、3Dシーン編集の新たな出発点を確立した。
関連論文リスト
- 3D Gaussian Editing with A Single Image [19.662680524312027]
本稿では,3次元ガウシアンスプラッティングをベースとしたワンイメージ駆動の3Dシーン編集手法を提案する。
提案手法は,ユーザが指定した視点から描画した画像の編集版に合わせるために,3次元ガウスを最適化することを学ぶ。
実験により, 幾何学的詳細処理, 長距離変形, 非剛性変形処理における本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-14T13:17:42Z) - 3DEgo: 3D Editing on the Go! [6.072473323242202]
本稿では,テキストプロンプトで案内されたモノクロ映像から3Dシーンを直接合成する新しい問題に対処する3DEgoを紹介する。
本フレームワークは,従来のマルチステージ3D編集プロセスを一段階のワークフローに合理化する。
3DEgoは、様々なビデオソースの編集精度、速度、適応性を示す。
論文 参考訳(メタデータ) (2024-07-14T07:03:50Z) - Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images [72.70883914827687]
Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-08T17:59:55Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - DGE: Direct Gaussian 3D Editing by Consistent Multi-view Editing [72.54566271694654]
オープンな言語命令に基づいて3Dオブジェクトやシーンを編集する際の問題点を考察する。
この問題に対する一般的なアプローチは、3D編集プロセスをガイドするために2Dイメージジェネレータまたはエディタを使用することである。
このプロセスは、コストのかかる3D表現の反復的な更新を必要とするため、しばしば非効率である。
論文 参考訳(メタデータ) (2024-04-29T17:59:30Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z) - Editing 3D Scenes via Text Prompts without Retraining [80.57814031701744]
DN2Nはテキスト駆動編集方式であり、普遍的な編集機能を備えたNeRFモデルの直接取得を可能にする。
本手法では,2次元画像のテキストベース編集モデルを用いて3次元シーン画像の編集を行う。
本手法は,外観編集,天気変化,材質変化,スタイル伝達など,複数種類の編集を行う。
論文 参考訳(メタデータ) (2023-09-10T02:31:50Z) - 3DDesigner: Towards Photorealistic 3D Object Generation and Editing with
Text-guided Diffusion Models [71.25937799010407]
テキスト誘導拡散モデルを用いて3次元連続生成を実現する。
本研究では3次元局所編集について検討し,2段階の解法を提案する。
モデルを拡張してワンショットのノベルビュー合成を行う。
論文 参考訳(メタデータ) (2022-11-25T13:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。