論文の概要: MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors
- arxiv url: http://arxiv.org/abs/2410.16272v1
- Date: Mon, 21 Oct 2024 17:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:18:13.610319
- Title: MvDrag3D: Drag-based Creative 3D Editing via Multi-view Generation-Reconstruction Priors
- Title(参考訳): MvDrag3D:マルチビュー生成-再構成プリミティブによるドラッグベースのクリエイティブ3D編集
- Authors: Honghua Chen, Yushi Lan, Yongwei Chen, Yifan Zhou, Xingang Pan,
- Abstract要約: 既存の3Dドラッグベースの編集方法は、重要なトポロジ変更の処理や、さまざまなオブジェクトカテゴリにまたがる新しいテクスチャの生成に不足している。
我々は、より柔軟で創造的なドラッグベースの3D編集のための新しいフレームワークMVDrag3Dを紹介する。
MVDrag3Dは3Dドラッグベース編集のための正確で生成的で柔軟なソリューションであることを示す。
- 参考スコア(独自算出の注目度): 19.950368071777092
- License:
- Abstract: Drag-based editing has become popular in 2D content creation, driven by the capabilities of image generative models. However, extending this technique to 3D remains a challenge. Existing 3D drag-based editing methods, whether employing explicit spatial transformations or relying on implicit latent optimization within limited-capacity 3D generative models, fall short in handling significant topology changes or generating new textures across diverse object categories. To overcome these limitations, we introduce MVDrag3D, a novel framework for more flexible and creative drag-based 3D editing that leverages multi-view generation and reconstruction priors. At the core of our approach is the usage of a multi-view diffusion model as a strong generative prior to perform consistent drag editing over multiple rendered views, which is followed by a reconstruction model that reconstructs 3D Gaussians of the edited object. While the initial 3D Gaussians may suffer from misalignment between different views, we address this via view-specific deformation networks that adjust the position of Gaussians to be well aligned. In addition, we propose a multi-view score function that distills generative priors from multiple views to further enhance the view consistency and visual quality. Extensive experiments demonstrate that MVDrag3D provides a precise, generative, and flexible solution for 3D drag-based editing, supporting more versatile editing effects across various object categories and 3D representations.
- Abstract(参考訳): ドラッグベースの編集は、画像生成モデルの能力によって駆動される2Dコンテンツ作成で人気を博している。
しかし、この技法を3Dに拡張することは依然として課題である。
既存の3Dドラッグベースの編集手法では、空間変換の明示的利用や、限られた3D生成モデル内での暗黙の潜時最適化を頼りにすることなく、重要なトポロジ変化の処理や、さまざまな対象カテゴリにまたがる新しいテクスチャの生成に不足している。
MVDrag3Dは、より柔軟で創造的なドラッグベースの3D編集のための新しいフレームワークで、複数ビューの生成と再構築の先例を活用する。
提案手法のコアとなるのは,複数のレンダリングビューに対して一貫したドラッグ編集を行う前に,複数ビュー拡散モデルを強力な生成モデルとして用いることであり,その後,編集対象の3次元ガウスを再構成する再構成モデルが続く。
初期3次元ガウスアンは異なる視点間の不整合に悩まされるかもしれないが、ガウスアンの位置を適切に調整するビュー固有の変形ネットワークを介してこの問題に対処する。
さらに,複数視点から生成先行情報を抽出し,ビューの一貫性と視覚的品質をさらに向上する多視点スコア関数を提案する。
MVDrag3Dは、様々なオブジェクトカテゴリや3D表現にまたがるより汎用的な編集効果をサポートする、3Dドラッグベースの編集のための正確で生成的で柔軟なソリューションを提供する。
関連論文リスト
- Manipulating Vehicle 3D Shapes through Latent Space Editing [0.0]
本稿では,車載3Dモデルに対する連続的,高精度,属性特異的な修正を可能にする,事前学習型回帰器を用いたフレームワークを提案する。
提案手法は,車両3Dオブジェクトの固有性を保持するだけでなく,多属性編集もサポートしており,モデルの構造的整合性を損なうことなく,広範囲のカスタマイズが可能となる。
論文 参考訳(メタデータ) (2024-10-31T13:41:16Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - Tailor3D: Customized 3D Assets Editing and Generation with Dual-Side Images [72.70883914827687]
Tailor3Dは、編集可能なデュアルサイドイメージからカスタマイズされた3Dアセットを作成する新しいパイプラインである。
3Dアセットを編集するためのユーザフレンドリで効率的なソリューションを提供する。
論文 参考訳(メタデータ) (2024-07-08T17:59:55Z) - DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。
TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。
ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文 参考訳(メタデータ) (2024-05-13T17:59:51Z) - DragGaussian: Enabling Drag-style Manipulation on 3D Gaussian Representation [57.406031264184584]
DragGaussianは、3D Gaussian Splattingをベースにした3Dオブジェクトのドラッグ編集フレームワークである。
我々の貢献は、新しいタスクの導入、インタラクティブなポイントベース3D編集のためのDragGaussianの開発、質的かつ定量的な実験によるその効果の包括的検証などである。
論文 参考訳(メタデータ) (2024-05-09T14:34:05Z) - Generic 3D Diffusion Adapter Using Controlled Multi-View Editing [44.99706994361726]
オープンドメインの3Dオブジェクト合成は、限られたデータと高い計算複雑性のために、画像合成に遅れを取っている。
本稿では,SDEditの3次元版として機能するMVEditを提案する。
MVEditはトレーニング不要の3Dアダプタを通じて3D一貫性を実現し、最後の2Dビューをコヒーレントな3D表現に変換する。
論文 参考訳(メタデータ) (2024-03-18T17:59:09Z) - View-Consistent 3D Editing with Gaussian Splatting [50.6460814430094]
View-Consistent Editing (VcEdit)は、3DGSをシームレスに画像編集プロセスに組み込む新しいフレームワークである。
一貫性モジュールを反復パターンに組み込むことで、VcEditはマルチビューの不整合の問題を十分に解決する。
論文 参考訳(メタデータ) (2024-03-18T15:22:09Z) - Multi-view Inversion for 3D-aware Generative Adversarial Networks [3.95944314850151]
人間の頭部に対する現在の3D GANインバージョン法は、通常、1つの正面像のみを使用して3Dヘッドモデル全体を再構築する。
これにより、マルチビューデータやダイナミックビデオが利用可能になったときに意味のある情報が残される。
提案手法は既存の最先端3D GANインバージョン技術を利用して,同一対象の複数のビューを一貫した同時インバージョンを可能にする。
論文 参考訳(メタデータ) (2023-12-08T19:28:40Z) - High-fidelity 3D GAN Inversion by Pseudo-multi-view Optimization [51.878078860524795]
フォトリアリスティック・ノベルビューを合成可能な高忠実度3次元生成対向ネットワーク(GAN)インバージョン・フレームワークを提案する。
提案手法は,1枚の画像から高忠実度3Dレンダリングを可能にし,AI生成3Dコンテンツの様々な応用に期待できる。
論文 参考訳(メタデータ) (2022-11-28T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。