論文の概要: Dragen3D: Multiview Geometry Consistent 3D Gaussian Generation with Drag-Based Control
- arxiv url: http://arxiv.org/abs/2502.16475v1
- Date: Sun, 23 Feb 2025 07:19:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:57:42.097400
- Title: Dragen3D: Multiview Geometry Consistent 3D Gaussian Generation with Drag-Based Control
- Title(参考訳): Dragen3D: ドラッグベース制御による多視点幾何一貫性3次元ガウス生成
- Authors: Jinbo Yan, Alan Zhao, Yixin Hu,
- Abstract要約: Dragen3Dは、幾何学的に一貫した制御可能な3D生成を実現する新しいアプローチである。
Anchor-Gaussian Variational Autoencoder (Anchor-GS VAE)を導入し、点雲と1つのイメージをアンカー潜水器にエンコードし、これらの潜水器を3DGSにデコードする。
我々の知る限りでは、幾何学的に制御可能な3Dガウス生成と編集を初めて達成した人物である。
- 参考スコア(独自算出の注目度): 2.5031284037888395
- License:
- Abstract: Single-image 3D generation has emerged as a prominent research topic, playing a vital role in virtual reality, 3D modeling, and digital content creation. However, existing methods face challenges such as a lack of multi-view geometric consistency and limited controllability during the generation process, which significantly restrict their usability. % To tackle these challenges, we introduce Dragen3D, a novel approach that achieves geometrically consistent and controllable 3D generation leveraging 3D Gaussian Splatting (3DGS). We introduce the Anchor-Gaussian Variational Autoencoder (Anchor-GS VAE), which encodes a point cloud and a single image into anchor latents and decode these latents into 3DGS, enabling efficient latent-space generation. To enable multi-view geometry consistent and controllable generation, we propose a Seed-Point-Driven strategy: first generate sparse seed points as a coarse geometry representation, then map them to anchor latents via the Seed-Anchor Mapping Module. Geometric consistency is ensured by the easily learned sparse seed points, and users can intuitively drag the seed points to deform the final 3DGS geometry, with changes propagated through the anchor latents. To the best of our knowledge, we are the first to achieve geometrically controllable 3D Gaussian generation and editing without relying on 2D diffusion priors, delivering comparable 3D generation quality to state-of-the-art methods.
- Abstract(参考訳): 単一画像の3D生成は、仮想現実、3Dモデリング、デジタルコンテンツ作成において重要な役割を担っている。
しかし、既存の手法では、多視点の幾何学的整合性の欠如や、生成過程における制御可能性の制限など、ユーザビリティを著しく制限する課題に直面している。
% これらの課題に対処するために, 3Dガウススプラッティング(3DGS)を利用した幾何学的に一貫した制御可能な3D生成を実現する新しいアプローチであるDragen3Dを導入する。
Anchor-Gaussian Variational Autoencoder (Anchor-GS VAE)を導入し、点雲と1つのイメージをアンカー潜伏子にエンコードし、これらの潜伏子を3DGSにデコードすることで、効率的な潜伏空間生成を可能にする。
まず、粗い図形表現としてスパースシードポイントを生成し、その後、シードアンカーマッピングモジュールを介してそれらをアンカーランタントにマッピングする。
幾何学的整合性は、容易に学習されたスパースシードポイントによって保証され、ユーザは直感的にシードポイントをドラッグして最後の3DGS幾何学を変形させ、アンカーラテントを通して変化を伝播させることができる。
我々の知る限りでは、我々は幾何学的に制御可能な3Dガウス生成と編集を2次元拡散先行に頼らずに初めて達成し、最先端の手法に匹敵する3D生成品質を提供する。
関連論文リスト
- F3D-Gaus: Feed-forward 3D-aware Generation on ImageNet with Cycle-Consistent Gaussian Splatting [35.625593119642424]
本稿では,モノケプラーデータセットから3次元認識を一般化する問題に取り組む。
画素整列型ガウススプラッティングに基づく新しいフィードフォワードパイプラインを提案する。
また、学習した3D表現において、クロスビューの一貫性を強制するために、自己教師付きサイクル一貫性制約を導入する。
論文 参考訳(メタデータ) (2025-01-12T04:44:44Z) - TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction [137.34863114016483]
TAR3Dは、3D対応ベクトル量子可変オートエンコーダ(VQ-VAE)と生成事前学習トランス(GPT)で構成される新しいフレームワークである。
TAR3Dは,テキスト・ツー・3Dタスクや画像・ツー・3Dタスクにおいて,既存の手法よりも優れた生成品質が得られることを示す。
論文 参考訳(メタデータ) (2024-12-22T08:28:20Z) - GaussianAnything: Interactive Point Cloud Latent Diffusion for 3D Generation [75.39457097832113]
本稿では,インタラクティブなポイントクラウド構造ラテント空間を備えたスケーラブルで高品質な3D生成を実現する,新しい3D生成フレームワークを提案する。
本フレームワークでは,複数ビューのRGB-D(epth)-N(ormal)レンダリングを入力として使用する変分オートエンコーダを,3次元形状情報を保存する独自のラテント空間設計を用いて構成する。
提案手法であるGaussianAnythingは,複数モード条件付き3D生成をサポートし,ポイントクラウド,キャプション,シングル/マルチビュー画像入力を可能にする。
論文 参考訳(メタデータ) (2024-11-12T18:59:32Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGen: Geometry-Aware Generative Modeling via Signed Distance Functions [22.077366472693395]
単一ビューコレクションから3次元形状と画像を合成するための新しい生成手法を提案する。
ニューラルラディアンス場を用いたボリュームレンダリングを用いることで、生成した幾何学はノイズが多く、制約がないという重要な制限を継承する。
エンド・ツー・エンドで訓練された新しいSDFベースの3D生成モデルであるGeoGenを提案する。
論文 参考訳(メタデータ) (2024-06-06T17:00:10Z) - Coin3D: Controllable and Interactive 3D Assets Generation with Proxy-Guided Conditioning [52.81032340916171]
Coin3Dを使えば、ユーザーは基本的な形状から組み立てられた粗い幾何学的プロキシを使って3D生成を制御できる。
本手法は,3次元アセット生成タスクにおいて,制御性と柔軟性に優れる。
論文 参考訳(メタデータ) (2024-05-13T17:56:13Z) - Geometry-Contrastive Transformer for Generalized 3D Pose Transfer [95.56457218144983]
この研究の直感は、与えられたメッシュ間の幾何学的不整合を強力な自己認識機構で知覚することである。
本研究では,グローバルな幾何学的不整合に対する3次元構造的知覚能力を有する新しい幾何学コントラスト変換器を提案する。
本稿では, クロスデータセット3次元ポーズ伝達タスクのための半合成データセットとともに, 潜時等尺正則化モジュールを提案する。
論文 参考訳(メタデータ) (2021-12-14T13:14:24Z) - Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR-based
Perception [122.53774221136193]
運転時のLiDARに基づく認識のための最先端の手法は、しばしば点雲を2D空間に投影し、2D畳み込みによって処理する。
自然な対策として、3Dボクセル化と3D畳み込みネットワークを利用する方法がある。
本研究では,3次元幾何学的パターンを探索するために,円筒状分割と非対称な3次元畳み込みネットワークを設計する,屋外LiDARセグメンテーションのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-12T06:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。