論文の概要: ShapeUP: Scalable Image-Conditioned 3D Editing
- arxiv url: http://arxiv.org/abs/2602.05676v1
- Date: Thu, 05 Feb 2026 13:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.962685
- Title: ShapeUP: Scalable Image-Conditioned 3D Editing
- Title(参考訳): ShapeUP: スケーラブルなイメージコンディション3D編集
- Authors: Inbar Gat, Dana Cohen-Bar, Guy Levy, Elad Richardson, Daniel Cohen-Or,
- Abstract要約: ShapeUPはスケーラブルでイメージコンディショニングされた3D編集フレームワークである。
ネイティブな3D表現の中で、教師付きラテントからラテントへの翻訳として編集を定式化する。
評価の結果,ShapeUPはアイデンティティの保存と編集の両面で,現在のトレーニングやトレーニング不要のベースラインを一貫して上回っていることがわかった。
- 参考スコア(独自算出の注目度): 44.63222737714384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advancements in 3D foundation models have enabled the generation of high-fidelity assets, yet precise 3D manipulation remains a significant challenge. Existing 3D editing frameworks often face a difficult trade-off between visual controllability, geometric consistency, and scalability. Specifically, optimization-based methods are prohibitively slow, multi-view 2D propagation techniques suffer from visual drift, and training-free latent manipulation methods are inherently bound by frozen priors and cannot directly benefit from scaling. In this work, we present ShapeUP, a scalable, image-conditioned 3D editing framework that formulates editing as a supervised latent-to-latent translation within a native 3D representation. This formulation allows ShapeUP to build on a pretrained 3D foundation model, leveraging its strong generative prior while adapting it to editing through supervised training. In practice, ShapeUP is trained on triplets consisting of a source 3D shape, an edited 2D image, and the corresponding edited 3D shape, and learns a direct mapping using a 3D Diffusion Transformer (DiT). This image-as-prompt approach enables fine-grained visual control over both local and global edits and achieves implicit, mask-free localization, while maintaining strict structural consistency with the original asset. Our extensive evaluations demonstrate that ShapeUP consistently outperforms current trained and training-free baselines in both identity preservation and edit fidelity, offering a robust and scalable paradigm for native 3D content creation.
- Abstract(参考訳): 近年の3D基盤モデルの進歩により、高忠実度資産の生成が可能になったが、正確な3D操作は依然として大きな課題である。
既存の3D編集フレームワークは、視覚的制御性、幾何学的整合性、スケーラビリティのトレードオフに直面することが多い。
具体的には、最適化に基づく手法は極めて遅く、多視点2D伝搬技術は視覚的ドリフトに悩まされ、トレーニング不要の潜伏操作法は本質的に凍結前の手法に縛られ、スケーリングの恩恵を受けられない。
そこで本研究では,ネイティブな3D表現内でのラテント-ラテント翻訳の教師付けとして編集を定式化する,スケーラブルな画像条件付き3D編集フレームワークであるShapeUPを提案する。
この定式化により、ShapeUPは事前訓練された3Dファンデーションモデルの上に構築することができ、強力な生成前を生かし、教師付きトレーニングによる編集に適応することができる。
実際に、ShapeUPは、ソース3D形状、編集された2D画像、対応する編集された3D形状からなる三脚で訓練され、3D拡散変換器(DiT)を用いて直接マッピングを学習する。
このイメージ・アズ・プロンプト・アプローチは、ローカル・グローバル両方の編集をきめ細かな視覚的に制御し、元のアセットとの厳密な構造的整合性を維持しつつ、暗黙のマスフリーなローカライゼーションを実現する。
当社の広範な評価によると、ShapeUPは、ID保存と編集の両面で、現在のトレーニングやトレーニング不要のベースラインを一貫して上回り、ネイティブな3Dコンテンツ作成のための堅牢でスケーラブルなパラダイムを提供します。
関連論文リスト
- Free-Form Scene Editor: Enabling Multi-Round Object Manipulation like in a 3D Engine [83.0145525456509]
実世界の画像に対して直感的で物理的に一貫性のあるオブジェクト編集を可能にする3D対応フレームワークであるFFSEを提案する。
画像空間で動作したり、遅くてエラーを起こしやすい3D再構成を必要とする従来のアプローチとは異なり、FFSEは学習された3D変換のシーケンスとして編集する。
マルチラウンド3Dオブジェクト操作の学習を支援するために,3DObjectEditorを導入する。
論文 参考訳(メタデータ) (2025-11-17T18:57:39Z) - Towards Scalable and Consistent 3D Editing [32.16698854719098]
3D編集は没入型コンテンツ制作、デジタルエンターテイメント、AR/VRに広く応用されている。
2D編集とは異なり、クロスビューの一貫性、構造的忠実さ、きめ細かい制御性を必要とするため、依然として困難である。
我々はこれまでで最大の3D編集ベンチマークである3DEditVerseを紹介した。
モデル側では、3次元構造保存条件変換器である3DEditFormerを提案する。
論文 参考訳(メタデータ) (2025-10-03T13:34:55Z) - 3D-LATTE: Latent Space 3D Editing from Textual Instructions [64.77718887666312]
本研究では,ネイティブな3次元拡散モデルの潜在空間内で動作する学習自由な編集手法を提案する。
生成元からの3Dアテンションマップとソースオブジェクトをブレンドすることで、編集合成をガイドする。
論文 参考訳(メタデータ) (2025-08-29T22:51:59Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - 3Deformer: A Common Framework for Image-Guided Mesh Deformation [27.732389685912214]
ソース3Dメッシュにセマンティック素材とユーザが指定したセマンティックイメージが与えられた場合、3Deformerはソースメッシュを正確に編集することができる。
私たちの3Deformerは素晴らしい結果をもたらし、最先端のレベルに達することができます。
論文 参考訳(メタデータ) (2023-07-19T10:44:44Z) - Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion [115.82306502822412]
StyleGANは、画像インバージョンと潜時編集による2次元顔再構成とセマンティック編集において大きな進歩を遂げている。
対応する汎用的な3D GANインバージョンフレームワークがまだ欠けており、3D顔再構成とセマンティック編集の応用が制限されている。
本研究では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN逆変換の課題について検討する。
論文 参考訳(メタデータ) (2022-12-14T18:49:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。