論文の概要: UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2502.17860v1
- Date: Tue, 25 Feb 2025 05:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:19.684191
- Title: UniGS: Unified Language-Image-3D Pretraining with Gaussian Splatting
- Title(参考訳): Unified Language-Image-3D Pretraining with Gaussian Splatting
- Authors: Haoyuan Li, Yanpeng Zhou, Tao Tang, Jifei Song, Yihan Zeng, Michael Kampffmeyer, Hang Xu, Xiaodan Liang,
- Abstract要約: マルチモーダルプレトレーニングに3Dガウススティング(3DGS)を組み込んだUniGSを提案する。
より汎用的で強力なマルチモーダル表現の学習におけるUniGSの有効性を実証する。
- 参考スコア(独自算出の注目度): 68.37013525040891
- License:
- Abstract: Recent advancements in multi-modal 3D pre-training methods have shown promising efficacy in learning joint representations of text, images, and point clouds. However, adopting point clouds as 3D representation fails to fully capture the intricacies of the 3D world and exhibits a noticeable gap between the discrete points and the dense 2D pixels of images. To tackle this issue, we propose UniGS, integrating 3D Gaussian Splatting (3DGS) into multi-modal pre-training to enhance the 3D representation. We first rely on the 3DGS representation to model the 3D world as a collection of 3D Gaussians with color and opacity, incorporating all the information of the 3D scene while establishing a strong connection with 2D images. Then, to achieve Language-Image-3D pertaining, UniGS starts with a pre-trained vision-language model to establish a shared visual and textual space through extensive real-world image-text pairs. Subsequently, UniGS employs a 3D encoder to align the optimized 3DGS with the Language-Image representations to learn unified multi-modal representations. To facilitate the extraction of global explicit 3D features by the 3D encoder and achieve better cross-modal alignment, we additionally introduce a novel Gaussian-Aware Guidance module that guides the learning of fine-grained representations of the 3D domain. Through extensive experiments across the Objaverse, ABO, MVImgNet and SUN RGBD datasets with zero-shot classification, text-driven retrieval and open-world understanding tasks, we demonstrate the effectiveness of UniGS in learning a more general and stronger aligned multi-modal representation. Specifically, UniGS achieves leading results across different 3D tasks with remarkable improvements over previous SOTA, Uni3D, including on zero-shot classification (+9.36%), text-driven retrieval (+4.3%) and open-world understanding (+7.92%).
- Abstract(参考訳): 近年のマルチモーダル3次元事前学習法は,テキスト,画像,点雲の合同表現の学習において有望な有効性を示している。
しかし、点雲を3D表現として採用しても、3D世界の複雑さを完全に捉えることができず、離散点と画像の密度の高い2Dピクセルの間に顕著なギャップが現れる。
この問題に対処するために、UniGSを提案し、3Dガウス・スプレイティング(3DGS)をマルチモーダル・プレトレーニングに統合し、3D表現を強化する。
まず,色と不透明度を持つ3Dガウスのコレクションとして3DGS表現をモデル化し,3D画像との強いつながりを保ちながら3Dシーンのすべての情報を取り入れた。
そして、Language-Image-3Dの関連性を達成するために、UniGSはトレーニング済みの視覚言語モデルから始め、広範囲な実世界の画像とテキストのペアを通して、共有された視覚空間とテキスト空間を確立する。
その後、UniGSは最適化された3DGSをLanguage-Image表現に合わせるために3Dエンコーダを使用し、統一されたマルチモーダル表現を学習する。
3Dエンコーダによるグローバルな明示的な3D特徴の抽出を容易にするとともに、より優れた相互アライメントを実現するために、3Dドメインの微細な表現の学習をガイドする新しいガウス・アウェア誘導モジュールを導入する。
Objaverse, ABO, MVImgNet, SUN RGBDデータセットのゼロショット分類, テキスト駆動検索, オープンワールド理解タスクによる広範な実験を通じて, より汎用的でより強力なマルチモーダル表現の学習におけるUniGSの有効性を実証した。
特に、UniGSは、ゼロショット分類(+9.36%)、テキスト駆動検索(+4.3%)、オープンワールド理解(+7.92%)など、以前のSOTA、Uni3Dよりも顕著に改善され、様々な3Dタスクで主要な結果を達成している。
関連論文リスト
- CLIP-GS: Unifying Vision-Language Representation with 3D Gaussian Splatting [88.24743308058441]
3DGSを基盤とした新しいマルチモーダル表現学習フレームワークであるCLIP-GSを提案する。
我々は,3DGS,画像,テキストの三重項を生成する効率的な方法を開発し,CLIP-GSによるマルチモーダル表現の学習を容易にする。
論文 参考訳(メタデータ) (2024-12-26T09:54:25Z) - GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。
本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文 参考訳(メタデータ) (2024-12-22T09:06:58Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Sherpa3D: Boosting High-Fidelity Text-to-3D Generation via Coarse 3D
Prior [52.44678180286886]
2次元拡散モデルでは、3次元データなしで優れた一般化と豊富な詳細を実現する蒸留手法が見つかる。
提案するSherpa3Dは,高忠実度,一般化性,幾何整合性を同時に実現する新しいテキスト・ツー・3Dフレームワークである。
論文 参考訳(メタデータ) (2023-12-11T18:59:18Z) - Sculpting Holistic 3D Representation in Contrastive Language-Image-3D Pre-training [51.632418297156605]
コントラスト型言語画像3D事前学習において, ホロリスティックな3D表現を彫刻するMixCon3Dを提案する。
相補的な視点から3次元オブジェクトレベルの表現を開発する。
次に、MixCon3Dは言語3Dのコントラスト学習を行い、現実世界の3Dオブジェクトを包括的に表現し、テキストアライメントを強化する。
論文 参考訳(メタデータ) (2023-11-03T06:05:36Z) - Uni3D: Exploring Unified 3D Representation at Scale [66.26710717073372]
大規模に統一された3次元表現を探索する3次元基礎モデルであるUni3Dを提案する。
Uni3Dは、事前にトレーニングされた2D ViTのエンドツーエンドを使用して、3Dポイントクラウド機能と画像テキスト整列機能とを一致させる。
強力なUni3D表現は、野生での3D絵画や検索などの応用を可能にする。
論文 参考訳(メタデータ) (2023-10-10T16:49:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。