論文の概要: UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding
- arxiv url: http://arxiv.org/abs/2508.11952v1
- Date: Sat, 16 Aug 2025 07:27:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:10.478285
- Title: UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding
- Title(参考訳): UniUG:幾何学的セマンティックエンコーディングによる統一された3D理解と生成
- Authors: Yueming Xu, Jiahui Zhang, Ze Huang, Yurui Chen, Yanpeng Zhou, Zhenyu Chen, Yu-Jie Yuan, Pengxiang Xia, Guowei Huang, Xinyue Cai, Zhongang Qi, Xingyue Quan, Jianye Hao, Hang Xu, Li Zhang,
- Abstract要約: 3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
- 参考スコア(独自算出の注目度): 57.86758122195093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the impressive progress on understanding and generating images shown by the recent unified architectures, the integration of 3D tasks remains challenging and largely unexplored. In this paper, we introduce UniUGG, the first unified understanding and generation framework for 3D modalities. Our unified framework employs an LLM to comprehend and decode sentences and 3D representations. At its core, we propose a spatial decoder leveraging a latent diffusion model to generate high-quality 3D representations. This allows for the generation and imagination of 3D scenes based on a reference image and an arbitrary view transformation, while remaining supports for spatial visual question answering (VQA) tasks. Additionally, we propose a geometric-semantic learning strategy to pretrain the vision encoder. This design jointly captures the input's semantic and geometric cues, enhancing both spatial understanding and generation. Extensive experimental results demonstrate the superiority of our method in visual representation, spatial understanding, and 3D generation. The source code will be released upon paper acceptance.
- Abstract(参考訳): 最近の統合アーキテクチャで示されているイメージの理解と生成に関する目覚ましい進歩にもかかわらず、3Dタスクの統合は依然として困難であり、ほとんど探索されていない。
本稿では,3次元モダリティの統一的理解・生成フレームワークUniUGGを紹介する。
我々の統合されたフレームワークは、文や3D表現の理解とデコードにLLMを使用している。
その中核として,潜伏拡散モデルを利用して高品質な3D表現を生成する空間デコーダを提案する。
これにより、参照画像と任意のビュー変換に基づく3Dシーンの生成と想像が可能となり、空間的視覚的質問応答(VQA)タスクが引き続きサポートされる。
さらに,視覚エンコーダを事前学習するための幾何学的意味学習戦略を提案する。
この設計は、入力のセマンティックおよび幾何学的手がかりを共同で捉え、空間的理解と生成の両方を強化する。
広汎な実験結果から,視覚表現,空間理解,三次元生成において,本手法の優位性が示された。
ソースコードは、論文の受理時に公開される。
関連論文リスト
- Tackling View-Dependent Semantics in 3D Language Gaussian Splatting [80.88015191411714]
LaGaは、3Dシーンをオブジェクトに分解することで、ビュー間のセマンティック接続を確立する。
セマンティック記述子をクラスタリングし、多視点セマンティックスに基づいてそれらを重み付けすることで、ビュー集約セマンティック表現を構築する。
同じ設定で、LaGaはLERF-OVSデータセットの以前のSOTAよりも+18.7% mIoUを大幅に改善した。
論文 参考訳(メタデータ) (2025-05-30T16:06:32Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting [68.37013525040891]
マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
論文 参考訳(メタデータ) (2025-02-25T05:10:22Z) - FMGS: Foundation Model Embedded 3D Gaussian Splatting for Holistic 3D Scene Understanding [11.118857208538039]
基礎モデルの視覚言語埋め込みを3次元ガウススプラッティング(GS)に組み込んだ基礎モデル埋め込みガウススプラッティング(S)を提案する。
結果は、多面的なセマンティック一貫性を示し、様々な下流タスクを容易にし、オープン語彙言語に基づくオブジェクト検出において、最先端のメソッドを10.2%上回った。
本研究では,視覚・言語・3次元シーン表現の交わりについて検討し,制御されていない現実世界環境におけるシーン理解の強化の道を開く。
論文 参考訳(メタデータ) (2024-01-03T20:39:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。