論文の概要: Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation
- arxiv url: http://arxiv.org/abs/2603.05845v1
- Date: Fri, 06 Mar 2026 02:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:44.973948
- Title: Cog2Gen3D: Sculpturing 3D Semantic-Geometric Cognition for 3D Generation
- Title(参考訳): Cog2Gen3D:3次元生成のための3次元意味幾何学的認知の計算
- Authors: Haonan Wang, Hanyu Zhou, Haoyue Liu, Tao Gu, Luxin Yan,
- Abstract要約: 生成モデルは意味論的に妥当な2D画像を生成することに成功したが、空間幾何学的制約がないため、3D生成は依然として困難である。
セマンティック情報と絶対幾何学は3次元認知に力を与え、物理的世界に対する制御可能な3次元生成を可能にすると論じる。
本研究では,3次元生成のための3次元認知誘導拡散フレームワークであるCog2Gen3Dを提案する。
- 参考スコア(独自算出の注目度): 40.43990727998779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative models have achieved success in producing semantically plausible 2D images, but it remains challenging in 3D generation due to the absence of spatial geometry constraints. Typically, existing methods utilize geometric features as conditions to enhance spatial awareness. However, these methods can only model relative relationships and are prone to scale inconsistency of absolute geometry. Thus, we argue that semantic information and absolute geometry empower 3D cognition, thereby enabling controllable 3D generation for the physical world. In this work, we propose Cog2Gen3D, a 3D cognition-guided diffusion framework for 3D generation. Our model is guided by three key designs: 1) Cognitive Feature Embeddings. We encode different modalities into semantic and geometric representations and further extract logical representations. 2) 3D Latent Cognition Graph. We structure different representations into dual-stream semantic-geometric graphs and fuse them via common-based cross-attention to obtain a 3D cognition graph. 3) Cognition-Guided Latent Diffusion. We leverage the fused 3D cognition graph as the condition to guide the latent diffusion process for 3D Gaussian generation. Under this unified framework, the 3D cognition graph ensures the physical plausibility and structural rationality of 3D generation. Moreover, we construct a validation subset based on the Marble World Labs. Extensive experiments demonstrate that our Cog2Gen3D significantly outperforms existing methods in both semantic fidelity and geometric plausibility.
- Abstract(参考訳): 生成モデルは意味論的に妥当な2D画像を生成することに成功したが、空間幾何学的制約がないため、3D生成は依然として困難である。
通常、既存の手法は空間認識を高めるために幾何学的特徴を条件として利用する。
しかし、これらの手法は相対関係のみをモデル化することができ、絶対幾何学の不整合を拡大する傾向がある。
そこで,本論文では,意味情報と絶対幾何学が3次元認知を促進することによって,物理世界における制御可能な3次元生成を可能にすることを論じる。
本研究では,3次元生成のための3次元認知誘導拡散フレームワークであるCog2Gen3Dを提案する。
私たちのモデルは3つの重要な設計でガイドされています。
1)認知的特徴埋め込み。
我々は、異なるモダリティを意味的および幾何学的表現にエンコードし、さらに論理的表現を抽出する。
2)3次元潜在認知グラフ
異なる表現を二重ストリームのセマンティック・ジオメトリ・グラフに構成し、それらを共通ベースのクロスアテンションを介して融合して3次元認知グラフを得る。
3)認知誘導潜在拡散
融合した3次元認知グラフを3次元ガウス生成の潜伏拡散過程の導出条件として活用する。
この統合された枠組みの下で、3D認知グラフは3D生成の物理的妥当性と構造的合理性を保証する。
さらに, Marble World Labs に基づく検証サブセットを構築した。
大規模な実験により,我々のCag2Gen3Dは,意味的忠実度と幾何学的妥当性の両方において,既存の手法を著しく上回っていることが示された。
関連論文リスト
- GeoPurify: A Data-Efficient Geometric Distillation Framework for Open-Vocabulary 3D Segmentation [57.8059956428009]
2次元視覚言語モデルから3次元セマンティックセグメンテーションへ機能を移行しようとする最近の試みは、永続的なトレードオフを露呈している。
3次元教師モデルから抽出した幾何学的事前情報を用いて2次元VLM生成した3次元点特徴に小さな学生親和性ネットワークを適用したGeoPurifyを提案する。
遅延幾何学情報と学習された親和性ネットワークから恩恵を受けることで、GeoPurifyはトレードオフを効果的に軽減し、優れたデータ効率を実現する。
論文 参考訳(メタデータ) (2025-10-02T16:37:56Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [65.60549881706959]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - GSV3D: Gaussian Splatting-based Geometric Distillation with Stable Video Diffusion for Single-Image 3D Object Generation [24.255633621887988]
本研究では,2次元拡散モデルの暗黙的3次元推論能力を活用しながら3次元の整合性を確保する手法を提案する。
具体的には、提案したガウススプラッティングデコーダは、SV3D潜在出力を明示的な3D表現に変換することで、3D一貫性を強制する。
その結果,高品質でマルチビュー一貫性のある画像と正確な3Dモデルが同時に生成されることがわかった。
論文 参考訳(メタデータ) (2025-03-08T09:10:31Z) - Deep Geometric Moments Promote Shape Consistency in Text-to-3D Generation [27.43973967994717]
MT3Dは高忠実度3Dオブジェクトを利用して視点バイアスを克服するテキスト・ツー・3D生成モデルである。
3Dアセットから幾何学的詳細を取り入れることで、MT3Dは多様で幾何学的に一貫したオブジェクトを作成することができる。
論文 参考訳(メタデータ) (2024-08-12T06:25:44Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。
生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。
近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文 参考訳(メタデータ) (2022-10-06T15:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。