論文の概要: Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
- arxiv url: http://arxiv.org/abs/2407.06191v1
- Date: Mon, 8 Jul 2024 17:59:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 14:30:11.006655
- Title: Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images
- Title(参考訳): Tailor3D:デュアルサイド画像による3Dアセットの編集と生成をカスタマイズ
- Authors: Zhangyang Qi, Yunhan Yang, Mengchen Zhang, Long Xing, Xiaoyang Wu, Tong Wu, Dahua Lin, Xihui Liu, Jiaqi Wang, Hengshuang Zhao,
- Abstract要約: Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 72.70883914827687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in 3D AIGC have shown promise in directly creating 3D objects from text and images, offering significant cost savings in animation and product design. However, detailed edit and customization of 3D assets remains a long-standing challenge. Specifically, 3D Generation methods lack the ability to follow finely detailed instructions as precisely as their 2D image creation counterparts. Imagine you can get a toy through 3D AIGC but with undesired accessories and dressing. To tackle this challenge, we propose a novel pipeline called Tailor3D, which swiftly creates customized 3D assets from editable dual-side images. We aim to emulate a tailor's ability to locally change objects or perform overall style transfer. Unlike creating 3D assets from multiple views, using dual-side images eliminates conflicts on overlapping areas that occur when editing individual views. Specifically, it begins by editing the front view, then generates the back view of the object through multi-view diffusion. Afterward, it proceeds to edit the back views. Finally, a Dual-sided LRM is proposed to seamlessly stitch together the front and back 3D features, akin to a tailor sewing together the front and back of a garment. The Dual-sided LRM rectifies imperfect consistencies between the front and back views, enhancing editing capabilities and reducing memory burdens while seamlessly integrating them into a unified 3D representation with the LoRA Triplane Transformer. Experimental results demonstrate Tailor3D's effectiveness across various 3D generation and editing tasks, including 3D generative fill and style transfer. It provides a user-friendly, efficient solution for editing 3D assets, with each editing step taking only seconds to complete.
- Abstract(参考訳): 3D AIGCの最近の進歩は、テキストと画像から直接3Dオブジェクトを作成することを約束しており、アニメーションと製品デザインの大幅なコスト削減を提供している。
しかし、3Dアセットの詳細な編集とカスタマイズは、長年にわたる課題である。
具体的には、3D生成法は2D画像作成方法と同様に細かな指示を正確に追従する能力に欠ける。
おもちゃは3D AIGCで買えるが、不要なアクセサリーやドレッシングもある。
この課題に対処するために,編集可能な両面画像からカスタマイズされた3Dアセットを迅速に生成する,Tailor3Dという新しいパイプラインを提案する。
我々は、局所的にオブジェクトを変更したり、全体的なスタイル転送を行う、テーラーの能力をエミュレートすることを目的としている。
複数のビューから3Dアセットを作成するのとは異なり、デュアルサイドのイメージを使用すると、個々のビューを編集する際に発生する重複する領域のコンフリクトが排除される。
具体的には、まずフロントビューを編集し、マルチビュー拡散を通じてオブジェクトのバックビューを生成する。
その後、バックビューを編集する。
最後に、Dual-sided LRMを提案し、前と後ろの3D特徴をシームレスに縫い合わせる。
Dual-sided LRMは、フロントビューとバックビューの間の不完全な相違を是正し、編集能力を向上し、メモリ負荷を低減し、LoRA Triplane Transformerとシームレスに3D表現に統合する。
実験結果から,3次元生成フィリングやスタイル転送など,様々な3次元生成および編集タスクにおけるTailor3Dの有効性が示された。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
関連論文リスト
- DragScene: Interactive 3D Scene Editing with Single-view Drag Instructions [9.31257776760014]
3D編集は、様々な指示に基づいてシーンを編集する際、顕著な能力を示した。
既存の方法は直感的で局所的な編集に苦労する。
DragSceneは、ドラッグスタイルの編集と多様な3D表現を統合するフレームワークである。
論文 参考訳(メタデータ) (2024-12-18T07:02:01Z) - MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors [19.950368071777092]
既存の3Dドラッグベースの編集方法は、重要なトポロジ変更の処理や、さまざまなオブジェクトカテゴリにまたがる新しいテクスチャの生成に不足している。
我々は、より柔軟で創造的なドラッグベースの3D編集のための新しいフレームワークMVDrag3Dを紹介する。
MVDrag3Dは3Dドラッグベース編集のための正確で生成的で柔軟なソリューションであることを示す。
論文 参考訳(メタデータ) (2024-10-21T17:59:53Z) - Layout-your-3D: Controllable and Precise 3D Generation with 2D Blueprint [61.25279122171029]
テキストプロンプトから制御可能で構成可能な3D生成が可能なフレームワークを提案する。
提案手法は2次元レイアウトを青写真として活用し,3次元生成の精密かつ確実な制御を容易にする。
論文 参考訳(メタデータ) (2024-10-20T13:41:50Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Image Sculpting: Precise Object Editing with 3D Geometry Control [33.9777412846583]
Image Sculptingは、3D幾何学とグラフィックスのツールを組み込むことで、2D画像を編集する新しいフレームワークである。
これは、ポーズ編集、回転、翻訳、3D合成、彫刻、シリアル追加といった、正確で定量化され、物理的に証明可能な編集オプションをサポートする。
論文 参考訳(メタデータ) (2024-01-02T18:59:35Z) - SHAP-EDITOR: Instruction-guided Latent 3D Editing in Seconds [73.91114735118298]
Shap-Editorは、新しいフィードフォワード3D編集フレームワークである。
フィードフォワード・エディター・ネットワークを構築することで,この空間で直接3D編集を行うことが可能であることを示す。
論文 参考訳(メタデータ) (2023-12-14T18:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。